中国移动完成首个面向流水线并行训练的OTN承载百公里级智算分布式协同现网技术试验

责任编辑:包建羽 2024.12.20 11:32 来源:通信世界全媒体

通信世界网消息(CWW)近日,在中国移动集团公司指导下,中国移动研究院联合中国移动黑龙江公司在全球运营商最大单集群智算中心——中国移动(哈尔滨)数据中心完成首个面向PP(流水线并行)训练的OTN承载百公里级智算分布式协同现网技术试验。本次技术试验首次完成了基于800G OTN的104km跨智算集群分布式PP训练,实现了等同单节点训练效率98%以上的高效协同训练,是业界首次百公里级跨集群PP训练可行性技术验证探索。

随着智算集群规模向超万卡演进,单智算节点的持续扩容将面临电力供应、机房空间的巨大挑战,而且智算中心分地域、分时期、分阶段建设现象较为普遍。智算分布式协同是破解单节点集中部署受限、算力资源孤岛等难题的重要解决方案。而如何将分布式部署的智算节点进行高效的互联,充分发挥算力资源的最大效能,是业界亟需研究的关键问题。OTN具有大带宽、稳定低时延、高可靠等传输和组网技术特点,已广泛应用于骨干传送和城域传送网络,是构建跨集群分布式训练的潜在互联技术。而分布式智算对光网络的新需求与采用的DP(数据并行)、PP等训练并行模式直接相关,其中,PP是基础大模型训练的最常用并行方式之一,相比DP具有通信频次高、通信时间不可全部掩盖等更高难度,其拉远可行性在业界存在较大分歧。

中国移动研究院面向智算分布式协同场景持续开展技术创新,完成业界首个面向PP训练的OTN承载百公里级智算分布式协同技术现网试验。在试验中基于800G OTN互联的两个智算集群上运行700亿级参数的大型基础语言模型,在64张GPU卡、4个PP域分别在相距104km的两个节点部署场景下,实现了等同单节点训练效率98%以上的高效协同训练,是业界首次验证了OTN承载基于PP的百公里跨集群训练可行性,为分布式智算技术演进提供了全新技术路线和详实试验数据。此外,还创新提出了面向智算分布式协同的OTN无损倒换技术方案,通过芯片级算法实现传输链路断纤、误码时训练效率的无损和无感知。

自2023年起,中国移动研究院联合国内合作伙伴,开展跨集群分布式训练互联技术攻关,创新提出基于OTN的智算分布式协同架构,首次完成2-100公里不同距离多场景下OTN承载分布式智算技术试验,相关成果在光通信顶会ECOC发表。中国移动后续将围绕智算分布式协同深入推进关键技术攻关、原型研发与试验验证,探索分布式智算中心新模式。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容