DPU/SNIC构筑智算高性能互联底座

在日前的第三届DPU大会上,星云智联和中国联通研究院联手在《DPU/SNIC构筑智算高性能互联底座》的主题演讲中就智算的高性能互联技术挑战、DPU在智算中的作用等话题做了分享。

 

联通研究院高级研究员刘畅分享了对联通智算中心建设、DPU的应用场景及解耦和标准化等生态问题的思考,也公布了星云智联的DPU产品在中国联通研究院实验室的测试结果。

 

智算的高性能互联技术挑战

ChatGPT 成为现象级AI应用火爆出圈,国内也迅速跟进并进入了“百模大战”时代,在这背后是人工智能发展的三大要素-数据、算法和算力协同突破性发展的巨大推动。优秀的算法需要大规模的高质量数据来训练和优化,而高算力可以加速算法的执行和训练过程。从广义上来说,算力不仅局限于CPU和GPU的算力,它还包括了存力和运力。其中的运力就是指高性能网络,AI智算必不可缺的高性能互联底座。

 

 

AI 应用计算量呈几何级数增长,算法模型向巨量化发展,例如GPT3有1750亿个参数,发展到GPT4参数规模已经突破万亿。人工智能模型参数在过去十年增长了十万倍。训练这样的超大模型,需要大规模集群高效分布式计算实现超高算力。分布式计算中的数据并行、流水线并行及张量并行等多种并行计算模式均需要多个计算设备间进行集合通信操作,多机多卡间完成集合通信操作后才可进行训练的下一轮迭代或计算。高性能互联底座对于AI分布式训练集群的效率提升至关重要。如今超大模型所需的高性能互联网底座面临很多新的技术挑战:

 

1

 

超大规模组网

目前训练超大模型需要数千GPU 组成的集群,虽然GPU单个芯片算力在不断提升,但是随着模型规模的飞速增长,所需的GPU的集群规模也在不断扩大。数千上万 GPU组网带来巨大的技术挑战,包括需要解决大规模 RDMA 网络会遇到的链路头阻、PFC 死锁风暴等问题,需要更强的网络性能优化能力,采用更高效的拥塞控制、负载均衡技术等,需要解决大规模网卡连接性能问题,以及如何选择更优的网络拓扑等问题。

2

 

超高带宽

云数据中心使用CPU计算,网络需求一般在10Gbps~100Gbps,并且使用传统 TCP 传输层协议。但AI超大模型训练使用 GPU 训练,算力比 CPU 高好几个数量级,互联网络需求在 100Gbps~400Gbps,需要通过RDMA 协议来减少传输时延,提升网络吞吐。

3

 

超低时延、超低抖动

网络拥塞和丢包等造成的动态时延对网络性能会有严重影响。以 1750 亿参数规模的 GPT-3 模型训练为例,从理论估算模型分析,当动态时延从 10us提升至 1000us 时,GPU 有效计算时间占比将降低接近 10%,当网络丢包率为千分之一时,GPU 有效计算时间占比将下降 13%,当网络丢包率达到 1%时,GPU 有效计算时间占比将低于 5%。如何降低计算通信时延、提升网络吞吐是 AI 大模型智算中心能够充分释放算力的核心问题。此外网络变化因素引入的时延抖动也对训练效率产生负面影响。

4

 

超高稳定性

集群中一个网络节点的故障可能会影响数十个甚至更多的计算节点的连通性,降低系统算力的完整性;另一方面,网络性能波动影响大,网络作为集群共享资源相较于单个计算节点不容易被隔离,性能波动会导致所有计算资源的利用率都受影响。因此在 AI 大模型训练任务周期中,维持网络的稳定高效是极其重要的目标,这对网络运维带来了新的挑战。

5

 

网络自动化部署

据统计,超过 90%的高性能网络故障是由配置错误导致的问题。由于 AI 大模型训练中集群规模大,进一步增大配置的复杂度。因此通过高效或自动化部署配置提升大模型集群系统的可靠性和效率就十分有必要。另外在复杂的架构和配置条件下,还需要快速准确的故障定位和自动化故障检测等。

 

星云智联DPU技术创新与智算新品

DPU 作为智算中心内部资源互联的网络端点,是连接异构算力资源,加速数据在 CPU、GPU、存储及网络之间的移动,实现异构算力间数据高速互联互通底座的关键设备,与 CPU 和 GPU 一起成为智算中心的三大支柱。DPU实现RDMA 、NVMe-oF(NVMe over Fabric)等复杂协议栈的硬件卸载和加速,提升端网协同的网络加速能力,能更好地支持智算中心网络,聚合智能算力,提供高性能弹性可伸缩的智算能力。

 

星云智联DPU在RDMA技术方面做了很多创新,通过自研拥塞控制算法 NBL-CC(Congestion Control)、选择性重传协议NBL-SRP(Selective Retransmission Protocol),解决了传统RoCE部署存在的突出问题,如组网规模小、丢包敏感、稳定性低、需要交换机硬件更换、配置复杂、可扩展性不高等,在RDMA组网规模、稳定性、易用性、效率、容错性、性价比这六大方面获得全面提升,实现了不依赖交换网络“即插即用”,并且可以达到支持万级的GPU卡集群连接。此外通过与交换机配合,星云智联DPU还可以实现端网协同的报文负载均衡,进一步提升智算网络性能。

 

面向智算场景,星云智联即将推出一系列新产品,其中包括:

  • DPU D1205CQ (2x100G),相对25G DPU在全面增强功能和大幅提升性能的同时降低延时,RDMA功能得到全面加强,采用自研NBL-CC拥塞控制算法,实现5us的超低延时,支持万台节点规模。

  • S1405VQ 智能网卡(1x400G/2x200G),采用星云智联成熟的RDMA技术,助力高性能、大规模、低时延的GPU集群网络互联,可广泛应用于AI大模型、云计算GPU池化、HPC高性能网络互联等场景。

     

中国联通-星云智联DPU合作测试

2023年年初,星云智联和中国联通合作开展了一系列的DPU测试工作。测试重点聚焦于虚拟化和网络等场景,设计的测试用例多达30多项,主要涵盖了运维、兼容性、网络虚拟化、存储虚拟化等相关功能和性能。从测试结果来看,星云智联的D1055AS DPU在基本功能、虚拟化和网络的场景上全部通过测试,均满足了联通的预期和需求。星云智联和中国联通后续会继续面向网络云、公有云、智算中心等场景开展关于安全性及RDMA场景化落地的测试工作。

 


 

 

新闻中心

 

获取星云智联最新动态和新闻资讯