问题描述
如果您打算建立自己的计算集群来运行分布式 COMSOL 作业,可以参考本知识库提供的一些硬件建议。
解决方法
根据您想要求解的问题类型,需要考虑不同的集群架构。从集群硬件选择的角度来看,我们可以将 COMSOL 应用程序分为两类:基于大量唯一变化的参数对小模型进行扫描;或是非常大型的单个唯一模型,求解时需要的计算资源比任一台计算机提供的都多。
扫描
在基于不同的参数(如几何尺寸或频率)执行扫描时,可以在集群的不同节点上求解每个不同的参数组合。集群中的每个节点都必须拥有足够的内存来求解每个唯一模型,并且每个节点的类型都应相似。请遵循硬件建议来确定合适的配置。
节点之间的通信往往是一个瓶颈,因此我们建议您使用 Infiniband 或等效的高性能网络。节点数最多可达您想要同时运行的案例总数的 1/10。例如,如果您经常要扫描 1000 个不同的参数值,则配置最多包含 100 个节点的集群比较合理。由于在节点之间发送模型数据会产生开销,因此在更多节点之间求解通常不会导致更大的加速。
有关求解分布式扫描的指导信息,请参见以下文档:微执行器焦耳热 - 分布式参数版本。
大型模型
在求解分布于多个节点上的单个大型模型方面,集群架构变得更加重要;节点之间的通信瓶颈也变得更加突出。因此,强烈建议您使用 Infiniband 或等效的高性能网络。
首先,请确保您知道求解最大模型预计所需的内存量。有关预测内存需求的指导信息,请参见:求解大型 COMSOL 模型需要多少内存?。
一旦知道所需的内存量后,您便可以确定集群中的节点数。在更多节点上求解问题时,您将注意到求解速度会有所提高,但超过一定数量后,加速效果会变得不明显,甚至可能下降。何时发生这种情况取决于模型的大小。请使用知识库 866 中的指导信息来选择处理器和内存。
求解时间随以下因素发生变化:集群中的节点数、集群架构、互连速度、每个节点的处理器数量、处理器与节点内存之间的内存带宽、每个处理器的内核数以及 COMSOL Multiphysics 中使用的求解器类型。
一般注意事项
- 选择 Linux 还是 Windows HPCS2008R2 操作系统不会显著影响性能。
- COMSOL 使用 MPI(消息传递接口)模型将计算分布到计算集群中。
- 云计算可以通过我们的合作伙伴之一来实现。更多详细信息,请参见在云中运行 COMSOL Multiphysics® 和 COMSOL Server™。
COMSOL 尽一切合理的努力验证您在此页面上查看的信息。本页面提供的资源和文档仅供参考,COMSOL 对其有效性不作任何明示或暗示的声明。COMSOL 对所披露数据的准确性不承担任何法律责任。本文档中引用的任何商标均为其各自所有者的财产。有关完整的商标详细信息,请参阅产品手册。