COMSOL Multiphysics® 的 GPU 加速功能


COMSOL Multiphysics® 最新版本增强了利用 NVIDIA® 图形处理器 (GPU) 加速仿真计算的功能,进一步扩展了适用 GPU 硬件加速的模型范围,包括适用于所有单物理场或多物理场应用的直接稀疏求解器,以及时域显式压力声学仿真和深度神经网络 (DNN) 代理模型训练。在 6.4 版本中,GPU 支持的直接求解器已完全集成至标准求解器框架,用户无需更改任何底层物理场设置,即可在现有模型中轻松启用 GPU 加速,显著提升仿真效率。

GPU 加速的直接稀疏求解器

在许多有限元仿真中,反复求解通常源自于隐式时间步进、非线性迭代、特征频率分析和参数化扫描的大型稀疏线性方程组往往是耗时最长的阶段。为应对此类需求,COMSOL Multiphysics® 6.4 版本现已搭载支持 NVIDIA CUDA® 的直接稀疏求解器 (cuDSS),可在单台计算机上调用一个或多个 GPU 执行矩阵分解,充分发挥现代 GPU 硬件在高内存带宽与大规模并行计算方面的优势。

COMSOL Multiphysics 用户界面,显示:“模型开发器”中突出显示的“直接”节点、对应的“设置”窗口,以及“图形”窗口中的轮辋模型。
基于 NVIDIA cuDSS 的 GPU 加速为标准工作站硬件上的常规结构有限元分析带来了性能提升。本例展示的轮辋模型,其有效应力分布如图所示。使用 NVIDIA RTX™ 5000 Ada Generation 工作站 GPU 进行 GPU 求解时,相比在英特尔® W5-2465X 处理器上的 CPU 求解,实现了 2 倍的速度提升。

性能提升幅度因具体应用而异,在自由度达数百万的模型中,实际计算时间大多得到显著缩短。例如,在涉及穿孔板声传输多物理场分析的热黏性声学基准仿真中,使用多个 NVIDIA® H100 GPU 进行求解,相比双处理器 CPU 系统,显著缩短了运行时间。同样,在标准结构力学模型中,将直接求解阶段卸载至 RTX 5000 Ada 等工作站 GPU 后,也实现了明显的性能提升。

cuDSS 支持双精度或单精度运算。使用单精度模式可将显存使用量降低一半,因此,对于受显存限制的应用(包括使用低成本 GPU 的情况),往往可以实现更高的性能。模型是否适合采用单精度取决于其数值条件,这与网格质量、材料参数及底层物理场相关。用户可以在求解器设置中直接测试不同的精度模式,灵活选择在结果稳定性和计算性能之间达到最佳平衡的方案。

显示声质点速度的穿孔板模型,以及三种不同模型尺寸下的计算加速比图。
本例为常用于消声器和声衬的穿孔板声学传递阻抗多物理场模型,采用 cuDSS 在四块 NVIDIA® H100 GPU 上进行求解。图中显示了声质点速度分布。针对三种模型尺寸(90–240 万自由度)进行的基准测试表明,与双路英特尔® 至强® 铂金 8260 系统上基于 CPU 的直接求解器相比,求解速度提升了近 5 倍。

基于 GPU 加速的时域显式压力声学

NVIDIA® GPU 现已支持时域显式压力声学仿真。运行此类仿真时,通过采用显式时间步进方法,可避免在每个时步求解大型线性方程组,其核心计算主要涉及重复的矢量运算和局部单元更新。这类运算具有高度并行特性,能够高效映射至 GPU 硬件架构上执行。

此功能对于宽频声学仿真以及大规模三维计算域尤为实用。在这类问题中,为达到足够精细的空间分辨率,通常需要大量的时步计算。例如,在办公空间或音乐厅等室内声学模型中,往往需执行数万个时步才能精确解析声波的传播过程。将这些运算卸载至 GPU 上执行,可显著缩短整体仿真时间。

用于显式声学仿真的 GPU 加速求解形式同时支持单 GPU 系统(6.3 版本引入)以及多 GPU 系统(6.4 版本引入),既可在单台计算机上运行,也可部署于集群节点环境。这使得仿真能够覆盖自由度高达数亿的大规模计算域。举例来说,一个包含约 3 亿自由度的室内音乐厅波动声学模型,在单个数据中心级 NVIDIA® H100 GPU 上仅需数小时即可完成仿真,而使用多个 CPU 节点则需要更长时间。类似的加速效果在汽车声学仿真及其他大规模瞬态分析中同样表现显著。

注:使用单 GPU 时,所有许可证类型均支持压力声学,时域显式 接口;如果使用多 GPU,则需要网络浮动许可证。

在数据中心级 NVIDIA® H100 GPU 上求解的室内音乐厅模型(含 3 亿自由度),中心频率为 500 Hz 的初始脉冲传播过程。

面向代理模型训练的 GPU 加速

自 6.3 版本起,COMSOL Multiphysics® 引入了深度神经网络 (DNN) 代理模型生成工具,可用于近似高保真数值仿真。训练这类网络通常涉及大规模数据集的反复计算及多轮优化迭代,计算强度大,非常适合利用 GPU 进行加速。借助 NVIDIA® GPU 执行训练过程,用户能够显著缩短网络架构探索或超参数调优所需的时间,提升建模效率。

在捕捉复杂多物理场行为或进行空间模型重建时,往往需要构建更大规模的神经网络,GPU 的高内存带宽与强大的并行计算能力,为这类大规模网络的训练提供了有力支撑。DNN 训练的 GPU 加速功能已在代理模型 接口中无缝集成,用户无需额外安装任何附加产品,即可直接启用,畅享高效建模体验。

打开的“热微执行器代理模型”仿真 App 的用户界面,包含多个“输入”和“结果”栏;“图形”窗口中显示三维绘图。
由 DNN 代理模型驱动的 MEMS 热执行器仿真 App,可对温度、位移、电压和应力等物理量进行极快速的模型计算,其中调用的代理模型在标准工作站上通过 GPU 加速训练完成。

延伸阅读

如需进一步了解 COMSOL Multiphysics® 中的 GPU 加速功能,请参阅: