GPU并行加速及GPU网络架构搭建

基于无网格法的连续体结构拓扑优化,具有计算精度高,可消除传统拓扑优化中的数值不稳定性等优势,然而无网格法结构拓扑优化模型的求解存在计算耗时长的问题。为此引入GPU(Graphic processing unit,GPU)并行加速技术,开展无网格法结构拓扑优化模型的GPU并行加速求解及应用研究,以缩短拓扑优化模型的求解耗时.基于交叉节点对思想构建了拓扑迭代中刚度矩阵的GPU并行组装流程,结合CUDA(Compute unified device architecture,CUDA)库函数与预处理共轭梯度法实现了离散方程的GPU并行加速计算,且通过提前计算并存储形函数及其导数值以避免重复计算,建立了无网格法拓扑优化模型的GPU并行加速求解算法。通过二维悬臂梁算例验证了算法的正确性,完成了二维曲形支架,三维支撑平台以及多工况固支梁的拓扑优化设计,并分析了GPU并行算法的加速性能。算例结果表明所提GPU并行加速算法的计算结果正确,且极大地提高了无网格法拓扑优化模型的求解效率。

GPU服务器选型需兼备训练与推理功能的全能型GPU服务器。采用最新一代双路英特尔®至强®可扩展处理器,支持多达8个训练GPU,专为高密度GPU计算提供全方位的性能支持。产品支持多种不同的GPU拓扑结构,针对不同的应用和模型进行GPU互联优化,是高效全能的计算平台。同时对市面主流GPU进行了适配,完美兼容多种GPU类型。满足客户的灵活需求。产品支持多种不同的GPU拓扑结构,针对不同的应用和模型进行GPU互联优化,是高效全能的计算平台。同时对市面主流GPU进行了适配,完美兼容多种GPU类型。满足客户的灵活需求。

支持高强度GPU计算

支持同时支持第四代Sapphire Rapids 处理器或第五代Emerald Rapids 处理器,提供强大的X86处理平台针对训练应用,支持8个NVIDIA® Tesla® A100、A800/ NVIDIA® Tesla® A40全速7*24h工作,针对推理应用,支持8个NVIDIA® Tesla® A10/L4 提供在线大数据处理。

灵活配置,优化性能

8个GPU实现高性能在线推理:8个专业卡互连,优化深度学习训练的GPU Direct效率,高密度码流处理:8个NVIDIA® Tesla® 同时接入,实现百路以上高清处理高性价比HPC:

8台配备NVIDIA® Tesla® A100、A800 GPU的节点

如上图所示的NVIDIA® Tesla® A100 GPU拓扑结构中,8块A100 GPU所组成的拓扑包含以下组件:

两颗CPU芯片(及其两侧相关的内存,NUMA架构):中央处理器负责执行通用计算任务。

两块存储网络适配卡(用于访问分布式存储,具备带内管理等功能):这些网卡用于访问分布式存储资源。

四颗PCIe Gen4交换芯片:PCIe Gen4是PCIe接口的第四代,提供了更高的数据传输速率。

六颗NVSwitch芯片:NVSwitch使得GPU与GPU之间能够以极高的速度直接通信,这对于大规模深度学习节点和并行计算任务的有效运行至关重要。

八块GPU:A100、A800 GPU作为主要处理单元,负责执行并行计算,尤其适合人工智能和深度学习工作负载。

八块GPU专用网络适配卡:每块GPU配备一块专用的网络适配卡,旨在优化GPU之间的通信,并提升并行处理任务的整体性能。

存储网络卡

在GPU架构中,存储网络卡的定位主要涉及其通过PCIe总线与中央处理器(CPU)的连接,以及负责促进与分布式存储系统的通信。以下是存储网络卡在GPU架构中的主要作用:

  • 读写分布式存储数据:存储网络卡的主要功能之一是高效地从分布式存储系统读取和写入数据。这对于深度学习模型训练过程至关重要,在此过程中频繁访问分布在各处的训练数据以及将训练结果写入检查点文件极为重要。
  • 节点管理任务:存储网络卡的功能不仅限于数据传输,还包括节点管理任务。这包括但不限于通过SSH(安全外壳协议)进行远程登录、监控系统性能以及收集相关数据等任务。这些任务有助于对GPU集群的运行状态进行监控和维护。

NVSwitch 网络结构

  • 在完全互联网络拓扑中,每个节点都直接与所有其他节点相连。通常情况下,8块GPU通过六个NVSwitch芯片以全互联配置相连接,这一整体也被称为NVSwitch架构。
  • 在全互联结构中,每条线路的带宽取决于单个NVLink通道的带宽,表示为n * bw-per-nvlink-lane。对于采用NVLink3技术、每条通道带宽为50GB/s的A100 GPU,在全互联结构中,每条线路的总带宽为12 * 50GB/s = 600GB/s。需要注意的是,此带宽是双向的,既支持数据发送也支持接收,因此单向带宽为300GB/s。
  • 相比之下,A800 GPU将NVLink通道的数量从12减少到了8。因此,在全互联结构中,每条线路的总带宽变为8 * 50GB/s = 400GB/s,单向带宽为200GB/s。

以下是一个由8*A800组成的设备的nvidia-smi拓扑结构图示。


已发布

分类

来自

标签: