跨域异构算力网络实验取得阶段性成果,推动算力资源高效协同

责任编辑:王鹤迦 2024.12.13 08:38 来源:中国信通院

通信世界网消息(CWW)近日,第三届算力网络与数字经济论坛暨2024年“算力浦江”总结大会在上海召开。会上,跨域异构算力网络实验验证成果发布。在上海市通信管理局和上海市数据局的大力支持下,由中国信息通信研究院(简称“中国信通院”)、同济大学、上海人工智能实验室、上海新型互联网交换中心牵头,联合上海联通、有孚、沐曦、天数智芯、无问芯穹等多家单位,开展了跨域异构算力网络下的人工智能模型分布式训练实验验证工作。该实验旨在探索有效利用跨地域、架构异构的算力资源的方法,构建聚合零散算力资源的人工智能软件基础设施框架,以提高算力资源可用性和利用率,降低算力资源闲置水平,为实现数据要素跨域流动提供技术支撑。

图片

针对跨域算力资源的联合训练问题,本实验基于通信拓扑感知、资源感知、计算与通信并行的方法,提高算力资源与跨域通信资源的利用率,加速模型训练。此外,本实验基于差异化流水线分割、网状流水线调度、异构流水线非均匀并行等方式构建了负载均衡的模型训练流水线并行方法,进一步提高了异构算力与网络资源场景下的模型训练吞吐率,跨域异构混训效率可达90%。

针对异构芯片的通信闭源不兼容问题,本实验基于现有的底层通信协议,构建统一的通信适配层,利用直接内存访问与CPU辅助中转等方式实现跨生产厂家的智算芯片通信。基于此,本实验实现了异构算力芯片的点对点以及集合通信。本实验完成了跨硬件架构、跨生产厂家的大模型联合训练,打破了传统训练模式下局限于同一厂商的技术栈与解决方案的模型训练常规模式,为统筹利用算力资源提供了更多可能,异构混训效率可达97.5%。

本次实验成果的成功发布是算力基础设施研究领域的重要进展,也标志着跨域异构算力网络应用场景的进一步拓宽。下一步,中国信通院将立足国家东数西算重大战略需求,激活并挖掘潜在的算力资源,为多种类数据要素的跨地域流通持续注入动能。中国信通院将与各合作单位一道,进一步推进多场景下的跨域异构模型分布式训练相关研究,完成相应框架与平台搭建,提升算力资源的利用效率和协同能力,助力构建更加开放、共享、高效的人工智能技术生态体系。同时,中国信通院将持续关注前沿技术的演进方向,深化大规模预训练模型、云计算协同等领域的探索,推动技术成果在产业中的落地应用。未来,中国信通院将携手产业链上下游各方,打造具有国际竞争力的算力基础设施解决方案,为数字经济高质量发展提供坚实支撑,为全球人工智能技术发展贡献中国智慧和力量。



通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容