COMSOL Multiphysics® 的 GPU 加速功能
COMSOL Multiphysics® 最新版本增强了利用 NVIDIA® 图形处理器 (GPU) 加速仿真计算的功能,进一步扩展了适用 GPU 硬件加速的模型范围,包括适用于所有单物理场或多物理场应用的直接稀疏求解器,以及时域显式压力声学仿真和深度神经网络 (DNN) 代理模型训练。在 6.4 版本中,GPU 支持的直接求解器已完全集成至标准求解器框架,用户无需更改任何底层物理场设置,即可在现有模型中轻松启用 GPU 加速,显著提升仿真效率。
GPU 加速的直接稀疏求解器
在许多有限元仿真中,反复求解通常源自于隐式时间步进、非线性迭代、特征频率分析和参数化扫描的大型稀疏线性方程组往往是耗时最长的阶段。为应对此类需求,COMSOL Multiphysics® 6.4 版本现已搭载支持 NVIDIA CUDA® 的直接稀疏求解器 (cuDSS),可在单台计算机上调用一个或多个 GPU 执行矩阵分解,充分发挥现代 GPU 硬件在高内存带宽与大规模并行计算方面的优势。

性能提升幅度因具体应用而异,在自由度达数百万的模型中,实际计算时间大多得到显著缩短。例如,在涉及穿孔板声传输多物理场分析的热黏性声学基准仿真中,使用多个 NVIDIA® H100 GPU 进行求解,相比双处理器 CPU 系统,显著缩短了运行时间。同样,在标准结构力学模型中,将直接求解阶段卸载至 RTX 5000 Ada 等工作站 GPU 后,也实现了明显的性能提升。
cuDSS 支持双精度或单精度运算。使用单精度模式可将显存使用量降低一半,因此,对于受显存限制的应用(包括使用低成本 GPU 的情况),往往可以实现更高的性能。模型是否适合采用单精度取决于其数值条件,这与网格质量、材料参数及底层物理场相关。用户可以在求解器设置中直接测试不同的精度模式,灵活选择在结果稳定性和计算性能之间达到最佳平衡的方案。

基于 GPU 加速的时域显式压力声学
软件支持在 NVIDIA® GPU 上进行时域显式压力声学仿真。运行此类仿真时,采用显式时间步进方法无需在每个时步求解大型线性方程组,而是通过重复的矢量运算和局部单元更新完成计算。此类运算高度并行化,可高效映射至 GPU 硬件执行。
这一加速功能尤其适用于宽频声学仿真和大型三维域模拟。在这类问题中,较高的空间分辨率往往会导致时步数量巨大,例如,办公空间或音乐厅等室内声学模型可能需要数万个时步才能准确解析声波传播过程。将这些运算卸载至 GPU 可大幅缩短整体仿真时间。
用于显式声学的 GPU 加速求解器同时支持单 GPU 和多 GPU 系统,既可在单台计算机上运行,也可部署在集群节点上。借助这一能力,可实现自由度高达数亿量级的大型计算域仿真。举例来说,一个包含约 3 亿自由度的室内音乐厅波动声学模型,在单个数据中心级 NVIDIA® H100 GPU 上不到 1 个小时即可完成模拟;若改为使用多个 CPU 节点,耗时将可能需要数倍于此才能完成。类似的加速效果也见于汽车声学仿真和其他大规模瞬态分析场景。
注:使用单 GPU 时,所有许可证类型均支持压力声学,时域显式 接口;如果使用多 GPU,则需要网络浮动许可证。
在数据中心级 NVIDIA® H100 GPU 上求解的室内音乐厅模型(含 3 亿自由度),中心频率为 500 Hz 的初始脉冲传播过程。
面向代理模型训练的 GPU 加速
COMSOL Multiphysics® 还提供深度神经网络 (DNN) 代理模型生成工具,以用于近似高保真数值仿真。这类网络的训练需要对大型数据集进行反复计算,并执行多轮优化迭代,非常适合采用 GPU 加速。通过在 NVIDIA® GPU 上进行训练,可以显著缩短探索网络架构或调整超参数所需的时间。
对于需要捕捉复杂多物理场行为或实现空间模型重构的场景,往往需要构建规模更大的神经网络,这同样能充分发挥 GPU 高内存带宽和并行计算能力的优势。DNN 训练所需的 GPU 支持功能可直接在代理模型 接口中启用,无需任何附加产品即可运行。
延伸阅读
如需进一步了解 COMSOL Multiphysics® 中的 GPU 加速功能,请参阅:
- COMSOL Multiphysics® 6.4 发布亮点:研究与求解器更新
- COMSOL Multiphysics® 6.4 发布亮点:声学模块更新
- 系统要求:COMSOL Multiphysics® 6.4 版本
- 在 COMSOL Multiphysics® 中配置 GPU 加速计算
NVIDIA、CUDA 和 RTX 是 NVIDIA Corporation 在美国和/或其他国家/地区的商标和/或注册商标。英特尔和至强是英特尔公司在美国和/或其他国家/地区的商标。

