中国移动段晓东:面向超万卡集群的先进计算技术创新与展望

责任编辑:王鹤迦 2024.09.05 07:04 来源:通信世界全媒体

通信世界网消息(CWW)日前,中国移动研究院副院长段晓东发表了题为《面向超万卡集群的先进计算技术创新与展望》的主旨演讲。

段晓东表示,大模型技术正在快速向更大规模、更强能力发展,驱动智算中心从千卡集群向万卡甚至超十万卡集群演进。但超万卡集群的建设仍处于起步阶段,仍有很多科学与工程问题亟待解决,中国移动大力推进全调度以太网GSE、全向智感互联OISA、算力原生CAMA、算力路由CATS等原创核心技术成熟,为超万卡集群的创新突破做好技术储备。

段晓东在演讲中提到,当前大算力和高性能网络已经成为大模型创新落地的关键,随着万亿模型的出现,包括Google、Meta等在内的国内外大型科技公司都在积极投建万卡或超万卡集群,中国移动也正在内蒙古等地建设一批超万卡集群。当前在超万卡集群的建设实践过程中存在一系列的科学问题,包括集群规模提升和集群算力提升不匹配的问题、异构算力统一抽象、跨架构编译及自适应运行问题、算网一体化高效感知和联合路由调度问题等。

为此,中国移动提出了全调度以太网GSE、全向智感互联OISA和“芯合”算力原生CAMA等原创技术,攻关智算中心Scale Out网络和Scale Up互联问题,解决跨架构迁移和混合分布式训练难题。同时,为满足单体智算中心间高效互联及时延敏感型业务需求,中国移动正在大力攻关算力路由CATS和广域高吞吐技术,并开展规模中试验证,目标实现算网因子联合调度优化和广域场景的高效数据传输。

最后段晓东表示,中国移动在构建超万卡集群过程中,积累了非常宝贵的实践经验,同时也遇到了不少难题,希望产业凝聚共识,一起应对超万卡集群建设和运营带来的前所未有的挑战,共创新型智算开放体系,共建AI+新质生产力,共同实现国产智算基础设施的又一次跨越式发展。


通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容