中国移动李锴:围绕OISA打造开放的GPUs芯片互联

责任编辑:王鹤迦 2024.07.04 08:08 来源:中国移动研究院

通信世界网消息(CWW)在人工智能领域日新月异的发展背景下,超大模型的训练和推理对算力基础设施,尤其是GPU卡间互联能力的要求已跃升至全新高度。近日,中国移动研究院项目经理李锴深刻剖析了这一转变,并分享了中国移动在突破大规模GPU卡间互联技术瓶颈上的原创方案——全向智感互联(OISA)。

李锴指出,大模型技术正遵循着Scaling Law迅速演进,参数规模从千亿迈向万亿,同时模型特性也在从单一模态向多模态升级,序列处理能力从短序列拓展至长序列,这对计算资源的规模与效率提出了前所未有的挑战。面对巨大计算量,在扩大算力规模的同时,提升模型训练效率变得愈加重要。随着模型结构的不断优化,引入扩散模型和混合专家模型(MoE),模型的泛化能力和性能显著增强,进而推动了数据流从传统的DP、PP、TP向包含EP在内的更复杂模式演变,尤其是TP和EP流量的增长,对GPU卡间互联的效率及服务器设计提出了更高标准,促使业界探索超节点服务器及基于Switch拓扑的新形态。

针对现有GPU卡间互联中存在的协议不统一、拓扑形态局限及GPU与Switch芯片匹配度不足等问题,中国移动创新性地推出了全向智感互联开放协议体系(OISA)。OISA围绕大规模GPU对等互联、高效数据包格式、数据层可靠性机制以及高速物理传输四大核心理念展开设计,通过事务层(TL)、数据层(DL)和物理层(PL)的三层架构,旨在构建一个高性能、高扩展性且开放共享的Scale Up互联体系。目前,OISA Gen1协议及原型设计已顺利完成,标志着中国移动在GPU卡间互联技术上取得了实质性进展。

图片

OISA Gen1的规格设计

展望未来,中国移动研究院正依托“北京全向智感OISA协同创新平台”,联合48家合作伙伴积极推进OISA Gen1.1规范的升级工作,并致力于OISA协议硬核IP方案的验证与推广,力求进一步拓宽产业合作,共同推动大模型训练技术的深度革新与广泛应用,为人工智能的未来发展奠定坚实的基础设施基础。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容