中国移动李锴：围绕OISA打造开放的GPUs芯片互联

责任编辑：王鹤迦 2024.07.04 08:08 来源：中国移动研究院

通信世界网消息（CWW）在人工智能领域日新月异的发展背景下，超大模型的训练和推理对算力基础设施，尤其是GPU卡间互联能力的要求已跃升至全新高度。近日，中国移动研究院项目经理李锴深刻剖析了这一转变，并分享了中国移动在突破大规模GPU卡间互联技术瓶颈上的原创方案——全向智感互联（OISA）。

李锴指出，大模型技术正遵循着Scaling Law迅速演进，参数规模从千亿迈向万亿，同时模型特性也在从单一模态向多模态升级，序列处理能力从短序列拓展至长序列，这对计算资源的规模与效率提出了前所未有的挑战。面对巨大计算量，在扩大算力规模的同时，提升模型训练效率变得愈加重要。随着模型结构的不断优化，引入扩散模型和混合专家模型（MoE），模型的泛化能力和性能显著增强，进而推动了数据流从传统的DP、PP、TP向包含EP在内的更复杂模式演变，尤其是TP和EP流量的增长，对GPU卡间互联的效率及服务器设计提出了更高标准，促使业界探索超节点服务器及基于Switch拓扑的新形态。

针对现有GPU卡间互联中存在的协议不统一、拓扑形态局限及GPU与Switch芯片匹配度不足等问题，中国移动创新性地推出了全向智感互联开放协议体系（OISA）。OISA围绕大规模GPU对等互联、高效数据包格式、数据层可靠性机制以及高速物理传输四大核心理念展开设计，通过事务层（TL）、数据层（DL）和物理层（PL）的三层架构，旨在构建一个高性能、高扩展性且开放共享的Scale Up互联体系。目前，OISA Gen1协议及原型设计已顺利完成，标志着中国移动在GPU卡间互联技术上取得了实质性进展。

OISA Gen1的规格设计

展望未来，中国移动研究院正依托“北京全向智感OISA协同创新平台”，联合48家合作伙伴积极推进OISA Gen1.1规范的升级工作，并致力于OISA协议硬核IP方案的验证与推广，力求进一步拓宽产业合作，共同推动大模型训练技术的深度革新与广泛应用，为人工智能的未来发展奠定坚实的基础设施基础。

通信世界网版权及免责声明:

1、凡本网注明“来源：通信世界全媒体”及标有原创的所有作品，版权均属于通信世界网。未经允许禁止转载、摘编及镜像，违者必究。对于经过授权可以转载我方内容的单位，也必须保持转载文章、图像、音视频的完整性，并完整标注作者信息和本站来源。
2、凡本网注明“来源：XXX（非通信世界网）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的，请在相关作品刊发之日起30日内进行。

发表评论请先登录

发表评论

评价

共0条评论

...

热点文章

...

技术文章

...

会议活动