通信世界网消息(CWW)作为“人工智能+”时代的算力基础设施,智算中心的建设步入了提质加速的黄金发展期。据不完全统计,仅今年前7个月,我国围绕土建基础设施和IT基础架构等方面的建设内容,所发布的智算中心相关项目中标公告就超过140个。
9月25日—27日,2024年国际信息通信展在北京召开,智算产业上下游企业纷纷展出算力中心及相关配套设施,以及算力对行业客户赋能的具体应用案例。近日,通信世界全媒体记者采访了中国联通研究院副院长唐雄燕,听其深入解读智算中心行业发展趋势。
技术创新引领,迈向十万卡规模智算集群
如今,“更大”“更快”“更智能”“更绿色”的算力设施建设,渐成趋势。
在唐雄燕看来,2024年是智算中心技术迅速崛起的关键一年,目前智算中心研究热点主要集中在模型技术、芯片技术、集群技术、互联互通、绿色低碳等方面。
在模型技术方面,2024年以来在细分领域实现多次技术创新,特别是模型压缩及优化、分布式训练及推理、模型参数及优化、数据清洗及增强、模态融合及转换等环节。这些环节的技术创新使得模型更加高效、精准,为各种智能应用提供了坚实的基础。
芯片技术领域也取得较大突破。唐雄燕表示,目前面向智算中心多核、多芯片的算效提升成为焦点,计算芯片、存储新芯片、互联芯片协同发展。光计算芯片的突破带来了更高的计算速度,GPU性能的提升为大规模数据处理提供了强大动力,存算一体技术的发展有效提高了数据处理效率,芯片互联技术的进步则实现了更高效的协同工作。
集群技术的突破同样令人瞩目,2024年以来国内外企业在单体规模、互联互通、绿电低碳等领域不断突破。在单体规模上,万卡及超万卡集训迅速推进,Meta、微软、OpenAI、xAI等多家AI巨头陆续宣布建成10万卡集群。智算中心已从千卡、万卡,迈入十万卡大关。在互联互通上,则聚焦在集群低时延互连网络技术方面,包括单体智算中心内、跨智算中心协同两方面。高速、低时延的网络连接可减少数据传输的延迟,提高集群的整体效率,对智算中心集群的性能至关重要。2024年工业和信息化部等七部门发文要求加快超大规模智算中心、突破集群低时延互连网络技术。而在绿电低碳上,目前设备液冷、协同优化节能调度等细分领域成果不断涌现,如三江源绿电智算示范和AI算力低碳节能管控等。
两大优势显著,下好智算融合“先手棋”
在智算中心的布局和建设方面,中国联通有着清晰而宏大的战略规划。中国联通围绕人工智能大模型训练等前沿场景,持续加强与全产业链交流合作,打造“全面覆盖、技术领先、绿色低碳、智慧安全”的适智化能力底座。创新性地提出了“1+N+X”的智算能力布局,聚焦重点城市构建AIDC发展高地,犹如精心筹划一盘棋局。
第一式,智算资源广覆盖。唐雄燕介绍,中国联通“1+N+X”智算能力布局,打造1个超大规模单体智算中心,集中资源处理大规模计算任务,提高资源利用效率;N个智算训推一体枢纽,根据不同地区和行业需求灵活调配计算资源,实现资源的优化配置;属地化的X个智算推理节点,充分利用本地计算资源,为本地用户提供快速、高效的服务,减少数据传输的延迟和成本。
第二式,智算网络强助力。唐雄燕认为,智算布局方面,运营商的独特优势更在于智算互联和算网协同。为此,中国联通推出专为人工智能发展需求设计的算力智联网,它包括广域网、数据中心网络以及实现计算和网络协同编排的算网大脑。提供超强运力的全光底座,实现算力资源高效互联,可以为智算中心提供高性能、高通量、高智能的坚实网络底座。
智算中心三大趋势显现
回顾并展望AI和智算中心的发展脉络,唐雄燕认为有三大趋势清晰可见。
一是算力多元异构融合及国产化趋势。在融合方面,模型训练、边缘推理、数值模拟等不同智能应用需要不同类型算力,进一步要求智算中心CPU、GPU、NPU、FPGA等资源层融合,从而实现资源高效融合及“零损耗”。同时,智算业务应用深入国民生产生活各个环节,这在国家安全、产业升级、技术自主、创新生态培育等层面有重要意义。“我国高端AI芯片性能与国际领先水平仍有差距,需要持续加强芯片技术攻关,提升高端AI芯片国产化替代能力。”唐雄燕强调,在这一领域,中国联通联合产业界合作伙伴建立产业联盟,服务于多元异构融合和自主可控联合创新。
二是智算中心内网络高通量、无阻塞演进趋势。据悉,千万亿级参数模型训练过程中通信占比最高可达50%、单次迭代通信量达百GB,网络层0.1%丢包可导致50%算力损失。因此,高性能网络一直是智算网络的核心技术诉求,智算中心内网络无损高速互联技术是当前及未来3~5年关键研究领域。在这一领域,中国联通已形成科创布局,对数据中心网络协议、算力联动及智能管控等进行研究,布局高通量、高性能、高智能的算力智联网系统。
三是智算中心区域化协同演进趋势。当前,以千万亿级参数大模型算力资源需求为参考,单体智算中心特别是同构单体智算中心难以满足日益增长的算力需求。因此,分布式多智算中心协同训练成为未来趋势,多数据中心之间的TB级带宽互联、μs级确定时延及高可靠调度等仍是未来技术演进的热点。在这一领域,中国联通对跨智算中心协同数训进行原创技术和创新方案研究,服务“西训东推”“中训边推”的跨域协同演进趋势。今年上半年,中国联通已完成3000千米的海量数据广域高通量无损传输验证,下半年将继续开展智算中心跨域协同训练关键技术的现网验证。
在智算中心领域,中国联通积极与业界伙伴开展多形态多模式的合作,包括联合研发创新、项目投资共建、数智资源共享、产业生态合作等,共同打造强大的智算中心生态。例如,中国联通与华为合作建成全栈自主创新AI智算中心,展现了技术实力的强强联合;与联想集团共同投资建设安徽省马鞍山市的“e联矩阵”,开拓了区域合作的新领域;与28家产业链生态合作伙伴成立“中国联通智算联盟”,更是彰显了与产业携手共进的决心和信心。
未来,中国联通将持续扩展产学研合作的广度和深度,共促智算发展,共赢智能时代。
*本篇刊载于《通信世界》9月25日*
第18期 总952期