通信世界网消息(CWW)当前,新一轮科技革命和产业变革正在向纵深发展,算力作为核心生产力,加速推动数字经济与实体经济深度融合,而算力基础设施作为算力的主要载体,其重要性不断提升。为强化政策引导,全面推动我国算力基础设施高质量建设和发展,工信部、中央网信办等六部门联合发布《算力基础设施高质量发展行动计划》(以下简称《行动计划》),从完善算力综合供给体系、提升算力高效运载能力、强化存力高效灵活保障等多个方面部署了25项重点任务。在完善算力综合供给体系方面,《行动计划》重点强调支持智算、通算等算力结构多元配置,逐步提升智算占比,加强智算与通算的协同发展,加速西部算力网络枢纽节点集约化智算中心建设。可见,《行动计划》将智算的发展放到了突出位置,为未来算力结构配置指明了方向。
近年来,中国移动大力推进算力网络的建设和发展,而智能算力是算力网络发展的重中之重。智能算力是构建智能服务的核心和基础,中国移动于2022年启动新型智算中心(NICC,New Intelligent Computing Center)的规划建设,计划打造亚洲最大的单体智算中心,算力规模超5EFlops(1艾=100万T=10亿G)。NICC的布局是中国移动算力网络“4+N+31+X”体系的一部分,按照“集中训练、分布推理、统一管控,弹性调度、自主可控、绿色低碳”的原则,梯次布局“中心节点、省节点和边缘节点”,统筹建设技术领先、绿色节能、服务全局的智算中心集群。
NICC的设计规划是一个复杂的系统工程,涉及算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面,是对创新突破、技术引领的一次考验和挑战。为此,中国移动创新性提出NICC新型智算中心技术体系架构,从新互联、新算效、新存储、新平台和新节能等五个方面进行系统性设计,布局高速计算总线、全调度以太网、全开放DPU、多协议融合存储、全局统一存储、算力原生、智算资源池化、分布式训练、低碳液冷等多项核心技术并开展重点攻关。
新互联:高速计算总线+全调度以太网(GSE)
计算总线技术在AI服务器内起着至关重要的作用,用于实现服务器内多张GPU/AI卡间的高效数据传输和通信。随着大模型参数量达到千亿甚至万亿级别,更大规模的GPU/AI卡间互联对带宽、时延以及抖动等方面提出极致性能要求。在这一领域,PCIe是应用较广泛的总线技术之一。但受限于带宽能力,其在支持大模型训练场景时存在一定不足。为了实现与英伟达NVLink相媲美的性能,国内开放互联总线的创新已成为当务之急。当前,中国移动正在积极推动行业合作,促成服务器制造商、GPU/AI芯片厂商、交换芯片厂商等相关方深度合作,通过制定总线标准、推动技术原型和芯片研发、适时引入光互联技术等举措,促进国内智算基础设施的快速发展。
随着GPU/AI卡集群规模不断扩大,服务器间的网络性能成为制约智能算力提升的瓶颈。如何提升网络规模和性能,构建超大规模、超高带宽、超低时延的高性能智算中心网络,是提升算力水平的关键。中国移动创新提出了全调度以太网技术(GSE,Global Scheduling Ethernet),面向无损、高带宽、超低时延等高性能网络需求业务场景,兼容以太网生态链,通过采用全调度转发机制、基于PKTC的负载均衡技术、基于DGSQ的全调度技术、集中管理及分布式控制等,实现低时延、无阻塞、高带宽的新型智算中心网络,具有开放、标准、自主可控等优势。同时,为体系化推动GSE网络技术成熟,中国移动积极构建标准技术生态和评测体系,大力开展创新试验,与各个行业合作伙伴携手合作,共同推动相关技术标准体系成熟。
新算效:全开放DPU
DPU是继CPU、GPU之后的数据中心“第三颗大芯片”,其本质是围绕数据处理提供网络、存储、安全、管理等基础设施虚拟化能力的专用处理器,可实现极低损耗、极强性能、极高灵活、极致安全。面对智算业务场景,DPU可以实现GPU裸金属的弹性云化管理,并满足中大规模模型训练和推理任务对网络、存储的高性能需求,提升极致算效。智算中心引入DPU面临软硬件标准化和高性能网络创新两大核心挑战。
一方面,中国移动制定了“1+5+4”软硬件标准体系,围绕管理、网络、存储、计算、安全五大软件系统,面向服务器硬件结构及供电、散热、辅助边带信号及带外纳管方案、管理运维策略四大方向,推动DPU与虚拟层软件、服务器硬件的标准化对接。另一方面,中国移动针对智算“零丢包”、低时延、高吞吐的网络需求,攻关DPU和RDMA协同方案,助力智算算效提升。
新存储:多协议融合存储+全局统一存储
NICC内需要存储设施承载海量非结构化数据,并支持通过文件、对象等多种协议,对存储数据进行访问和操作。随着业务应用对存储访问灵活性需求的增长,多协议互通融合存储已成为趋势,但是当前融合存储技术方案通过协议转换方式实现,还面临语义转换损失、安全策略差异等挑战。为了解决这些问题,中国移动联合产业合作伙伴,共同制定统一存储框架,重构存储底层数据结构,原生支持多协议融合。
超大规模的模型训练未来可能通过跨地域多中心并行开展,以有效拉通整体算力和存储能力,这就要求存储具有跨地域统一命名空间、统一存储资源调度和足够高的端到端数据交互性能。中国移动正在积极攻关跨地域多数据中心之间的全局统一存储技术方案,以实现全局存储资源抽象。一方面,这种方案使得数据在不同数据中心之间的复制和同步更加透明,确保数据的一致性和高可用性。另一方面,通过负载均衡策略,该方案使得应用程序可以就近访问数据中心,降低访问延迟,实现上层智算应用在不同数据中心之间无缝地访问和操作数据。
新平台:算力原生+智算资源池化+分布式训练
一直以来,智算生态是“AI框架+工具
链+硬件”的软硬一体“竖井”生态,上层应用与底层智算芯片深度绑定,带来应用开发迁移成本高昂、智算资源难以集聚、智算芯片企业多而不强等挑战。为屏蔽异构硬件差异、融通智算生态,中国移动联合产业各方,以智算基础软件栈为要点,研发“芯合”算力原生平台,构建了支持AI应用跨架构开发、编译和运行的基础软件栈,使能“应用一次开发、跨芯部署迁移”。
算力原生包含四大核心功能:一是统一编程模型及套件,基于SYCL标准进行范式拓展升级,屏蔽异构编程模型的范式差异,使能多类异构系统环境下的同一应用、一套代码;二是源代码转换器可实现各类编程模型向SYCL的转译;三是跨架构编译器可实现智算图模型与通用计算代码的融合编译优化,并通过一次编译生成无感于异构硬件的跨平台互识统一流转文件;四是自适应运行时可面向多厂商建立统一算力抽象,支持计算任务与异构算力资源的即时互映射按需执行。
后续,中国移动将联合产业界持续完善“芯合”算力原生平台功能,支撑更多业务场景、融通更多异构芯片,繁荣智算产业全“芯”生态。
同等资源条件下可提供的有效算力,是衡量算力服务质量的核心指标之一,而智算资源利用率则是提升智算中心有效算力的关键。据公开数据统计,传统智算中心平均GPU利用率不足30%,资源分配颗粒度粗、与上层应用静态绑定、无法根据业务负载动态调配、碎片资源无法聚合等是主要原因。
因此,中国移动在NICC首次引入智算资源池化技术,通过软件定义革新传统、低效的硬件管理方式,从集中调度、按需分配、动态伸缩和碎片聚合等多个维度实现智算资源的敏捷化管理;可实现对异构智算资源池化整合,根据业务的实际需求进行精细化分配,并智能感知业务负载的潮汐情况,在多个智算任务间动态迁移资源;支持对小颗粒度碎片的聚合管理,进一步实现跨节点远程加载等效果,从多个维度促进智算资源利用率的提升。
智算资源池化技术在小模型训练、推理等应用场景,可显著提升智算资源利用率,针对大模型训练或多应用混合场景,适配更多的硬件资源种类是下一步演进的目标。在此,笔者呼吁产业界合作伙伴共同构建智算池化产业生态,实现硬件、平台、应用等多种技术的融通和标准化发展。
伴随大模型的发展,带来深度学习模型规模、训练数据量增大的挑战,单个计算节点无法满足训练需求,且训练过程耗时量巨大。NICC面向大模型“训推”需求,集合各类同、异构算力资源建设算力资源池,为大模型训推提供算力支撑。
针对智算中心分散的算力资源,需要通过特定技术实现训练任务高速并行。中国移动基于智算中心建设及运营需要,着力攻关分布式训练技术,研究面向同构、异构算力资源池,将训练任务划分为多个子任务,通过在多台计算机上并行执行,实现高效、可靠和快速的深度学习模型训练,提高模型准确性和效率。
新节能:液冷技术
AI芯片性能持续提升也带来了芯片功耗的不断攀升,一台配置了8张高性能AI芯片的智算服务器功耗可以达到10kW,是通用计算服务器的20倍以上,传统的风冷散热已经无以为继。液冷技术具有超高的散热效率,是智算中心解决散热压力和节能挑战的必然之选。液冷技术路线主要有冷板式、浸没式和喷淋式。综合考量初始投资成本、可维护性、PUE效果以及产业成熟度等因素,冷板式和单相浸没式相较其他液冷技术更有优势,是当前业界的主流解决方案。其中,冷板式液冷在初始投资成本、网络运维模式、生态成熟度、机楼改造难度、工程实施进度等方面更具优势,目前中国移动在NICC建设中使用冷板式液冷,并在此基础上实现了液冷整机柜和CDU解耦。接下来,中国移动将继续推动液冷技术成熟,聚焦液冷服务器和液冷机柜的接口标准,优化液冷环境下运维和管理能力,促进产业链上下游生态成熟和能效利用水平不断提升。
近日,美国再次收紧了对我国高端AI芯片的出口管制。在此背景下,中国移动打造NICC,不仅是磨炼自身在智能算力领域的技术研发能力,以及对各类算力资源的统筹整合能力;同时也为整个人工智能行业在算力基础设施领域的前瞻性探索及布局,给出了发展方向上的积极建议,以此助力国内智算产业实现跨越式发展。