通信世界网消息(CWW)ChatGPT的横空出世引爆生成式AI新赛道,大模型规模从2017年的千万级参数上升到2023年的万亿级参数,5年超万倍的规模增长带来大模型训练、推理算力需求的急剧膨胀,对智算基础设施技术提出新的需求和挑战。
一是大模型推动算力需求指数型增长。以OpenAI GPT系列为例,GPT-3模型参数1750亿,完整训练需要约3.14E11(TFlops)的每秒浮点运算量,而下一代1.8万亿参数的GP T-4训练需要约2.15E13(TFlops),算力需求增长约70倍。二是大模型对通信互联提出更高要求。单卡单机算力有限,大模型的训练需要多卡多机并行,计算机总线和网络通信带宽、时延等成为集群不断扩容的制约因素。三是智算中心资源利用率高低不均。智算中心全域分散建设,单中心算力规模百P至1EFlops包括数千至数万智算芯片,现有调度技术难以针对跨域、超大规模智算算力进行灵活高效调度。四是大模型真正实现普惠化离不开框架与平台的一站式使能。大模型的构建与应用涉及算法设计、数据处理、分布式训练、推理部署等众多环节,面临着上手难、成本高和落地慢的挑战,而AI框架及全流程覆盖的一站式服务平台是提升AI研发与应用效率的关键。
大模型时代的智算需求,亟需芯片计算能力、总线能力、网络能力、调度能力和框架平台使能等多方面技术有所突破,不仅是技术创新的挑战,也是产业发展的机遇。
智算基础设施核心技术亟待升级突破
AI芯片是智算基础设施的核心
AI芯片是智算算力供给的基础保障,软件生态是制约芯片发展的最大障碍。AI芯片按使用场景可分为GPGPU和ASIC两种技术路线:以英伟达和AMD为代表的GPGPU是当前大模型生态的主流路线,通过在芯片上集成数万个小计算核实现并行计算,并逐渐引入专用计算核实现矩阵乘法的加速,通过CUDA软件生态支持数千种模型算子加速模型训练;以谷歌T PU和华为昇腾为代表的ASIC采用面向深度学习的专用计算架构,相比GPGPU减少了高精度计算核,在能耗比和芯片面积等方面具有一定优势,但受限于不支持CUDA生态兼容,通用性和可编程性方面成为最大阻碍,有待性能追赶和生态完善。
国产AI芯片适配是推动智算长效发展的关键。美国商务部2023年10月17日发布的新一轮芯片禁令,导致英伟达H100、H800、A100、A800、L40s等用于大模型训练的主力AI芯片均被禁售,长期来看国产化替代是必经之路。但国产芯片架构各异,驱动、软件开发接口难以兼容,导致应用跨架构迁移极为困难,生态竖井严重,需要通过技术路线收敛和芯片适配优化技术创新解决这一困境,百度的芯算一体平台提供针对多类型AI芯片适配调优工具,可以极大提升算力使用效率。
高性能智算互联是大规模算力构建的必要条件
高带宽互联总线助力多芯片提高分布式训练性能和效率。总线是服务器主板上不同硬件之间进行数据通信的管道,以高速数据传输支持多卡间的分布式训练推理。行业主流的总线互联技术包括PCIe、NVLINK和其它私有总线。PCIe是最广泛使用的一种总线技术,主要用于服务器内部CPU与GPU、SSD、网卡等各组件互联,PCIe 5.0带宽可达64Gbit/s。NVLINK是英伟达推出的当前主流GPU间高速总线互联技术,可实现900Gbit/s机内总线,并且后续可扩展到机外256节点间的组网方案(如DGX GH200)。
高效、大规模智算网络是智算集群建设的关键。高性能网络协议和集合通信库决定了大模型的并行训练效率,集合通信实现多GPU卡间数据或梯度交换与聚合,RD MA高性能协议技术实现GPU间的网络高吞吐能力,目前主要通过IB和RoC E技术实现。IB内置流控技术,对无损支持较好,但属于端到端一体化方案,成本高,不兼容以太网;而RoC E技术通过对以太网技术增强实现无损能力,目前头部互联网厂商如百度、阿里、腾讯等采用RoC Ev2的自研方案部署,并通过自研方式从网卡、交换机、协议、流量控制、通信库、网络拓扑和端到端管控等方面进行优化,端网协同构建高性能的RoCE网络。
算力调度是智算高效供给的重要手段
跨域分布式调度助力泛在算力资源的高效协同。智算中心依托分布式云架构布局多个地理区域,跨域分布式调度技术统一整合各级智算算力资源,在供给侧形成全局统一算力资源视图,协同完成资源供给;在需求侧面向各垂直场景,支持AI、HPC多场景统一调度,构建业务调度目标。跨域分布式调度支持应用、算力、存储、网络、能耗深度感知和多维度智能调度,实现跨智算中心间云网资源的有效协同和全局管控。
异构算力池化融合多元算力,提升利用率。将多厂商GPGPU、ASIC等异构算力资源进行统一纳管和池化,通过构建面向多元算力的高效调度平台,实现智算需求与异构算力的有效适配、算力要求与硬件性能的有效对接、异构算力在节点间的灵活调度等,将各类异构算力协同处理来发挥最大的计算效力,为多样化AI应用场景提供高性能、高可靠的算力支撑。
AI框架一站式服务可有效提升开发部署效率
AI框架实现大模型与硬件解耦,提高开发效率。AI框架向上支撑大模型搭建、向下屏蔽底层硬件差异提高执行性能,按使用场景可分为分布式训练框架和推理加速框架。分布式训练框架采用多种并行策略、显存优化和计算通信加速库等技术,可支持千亿/万亿级参数的大模型训练。当前推理加速框架采用包括量化、算子融合、动态批处理在内的多种加速技术,可极大降低大模型推理对算力和显存的要求从而实现高效使用。当前主流大模型框架包括PyTorch、Tensorflow和Megatron(或其变种框架),国内的PaddlePaddle、MindSpore、Colossal等也正在奋力追赶。
一站式服务跨越算法与业务鸿沟实现普惠。一站式大模型服务以LLMOps思想为指引,涵盖了数据处理、大模型开发、训练、微调、部署、维护和优化的一整套流程和最佳实践的大模型服务,使大模型技术应用于商业场景并构建完整的商业化运营体,从而打造大模型的“技术-商业”闭环。当前百度的千帆大模型平台、阿里的PAI平台、AWS的SageMaker、Azure的ML平台都是大模型一站式服务的代表,实现算法快速创新和应用加速落地。
中国电信融智入云,积极探索智算核心技术创新
攻关芯片核心技术,夯实自主算力底座
中国电信积极推动芯片评测适配,指引国产算力发展。面向业界主流的百亿/千亿级别开源大模型训练、微调与推理场景,制定统一测试标准,已开展国内数十家包括天数智芯、海光、壁仞、沐曦等GPGPU厂商和华为、寒武纪、昆仑芯等ASIC厂商多款产品与英伟达芯片对标评测。结合性价比、软件生态的完备性和易用性等综合因素,初步形成智算芯片的综合评估适配体系。
中国电信基于RISC-V指令集攻关自主可控智算芯片。中国电信基于RISC-V指令集统一通算与智算芯片生态,前期自研基于国产64核RISC-V CPU通算芯片与国产NPU/TPU等AI加速芯片的多形态边缘计算一体机方案,构建RISC-V异构AI计算软硬件生态,并在浙江、江苏等省率先开展试点应用。未来将联合国内RISC-V指令集AI芯片厂商及相关高校推进RISC-V开源编译开发框架的研究。
打破算力瓶颈,构筑新型智算互联
中国电信联合合作伙伴共同攻关超级节点内部高性能互联的关键技术。中国电信面向万亿级参数、万卡级别互联场景,大力攻关高性能智算总线互联,打造超级节点,聚焦攻关高性能总线互联的端对端、一致性、内存池化等关键技术,共同推进高性能互联技术的总线与网络融合仿真验证与应用适配,共同研发高性能总线互联技术相关产品,打造软硬协同全栈加速能力,推动智算中心标准建设。
中国电信开展超大规模智算中心组网和无损互联技术联合创新。综合考虑现网设备现状与实际业务需求,针对大模型训练网络研发的端网融合拥塞控制算法,通过端网协同实现主动+被动拥塞探测和精细化调控机制,满足网络高吞吐、低时延、高公平性需求,并在中国电信大科创装置中构建千卡规模网络拓扑仿真环境,开展拥塞控制技术仿真和物理实验,针对自研拥塞控制单元与集中控制器,在主流交换机的典型智算组网拓扑中进行测试,在时延、拥塞触发等指标上具有优势。同时研发自适应路由、在网计算、智能网卡乱序重排等智能化路由增强技术,联合产业界积极制定行业标准,实现异构厂商之间的协议互通。未来将持续探索引入800GE高速链路,满足智算中心对超大带宽、超低时延、超高性能的要求,发挥运营商担当助力中国实现以网强算。
推出新型平台,融通调配异构算力
中国电信打造运营商首个云智超一体化算力平台“云骁”,依托天翼云GPU裸金属及云主机、HPFS并行文件系统、RDMA网络等底座能力,以技术创新构筑高性能算力底座,提供智算、超算、通算多样化算力服务。同时,基于国云资源推出天翼云算力分发网络平台“息壤”,具备调度全网算力和多云资源能力,涵盖通用算力、智能计算、超级计算等多种算力类型,自研算力资源管理、算网编排、算网运营三大核心能力,实现异构算力资源的统一管理和调度,提供资源纳管算力度量、业务分发调度、资源弹性使用等快速上云按需使用算力的一站式解决方案,满足客户的全域算力要求。
提供一站式服务平台,开启大模型普惠服务发展新篇章
中国电信打造全新“慧聚”智算服务平台,将大模型开发训练过程中的关键流程、复杂技术和宝贵实践经验进行总结和抽取,构建一站式全链路大模型生产应用流水线,成功突破了算子加速、模型并行、断点续训等技术难点,可灵活组装数据准备、模型开发、任务管理、模型优化等多个产品功能模块,极大降低了用户构建大模型的难度,可为大模型开发者、提供者、应用厂商、政府与科研机构、行业协会等合作伙伴提供多种生态模式支持,推动大模型走向普惠服务。
联合合作伙伴,共同开展技术攻关、产业创新
多元融合和开源计算加速算力跃升
国内AI芯片未来GPGPU和ASIC两条技术路线将长期并存,多种国产异构AI芯片通过chiplet和先进封装实现算力增长的同时也将加剧算力碎片化,需要联合业界生态积极推动算力标准制定,打造异构算力开发及适配平台,实现算力生态融通,攻关国产化算力软硬深度协同技术,加快国产芯片在大模型场景商用,推动异构算力生态发展及服务化能力全面提升。未来将通过统一的算力算子标准和软硬接口融合多种异构算力,可实现动态组合无缝加速多种智算场景,缩短大模型训练时间,提升大模型推理性能,实现智能算力跃升以满足日益增长的算力需求。此外,中国电信将引领基于开源RISC-V的芯片逐步转变为智算底座的第三极力量,利用开源芯片工具生态加速AI芯片创新。
超级互联和高能智网实现以网强算
面向未来万亿级到百万亿级模型的训练场景,现有的互联架构和技术无法保证算力集群维持在一个可观的计算效率,需要具备更高带宽、更高效率、更高扩展性的超级互联和高性能智能网络技术水平。中国电信联合产业合作伙伴开展超级互联技术研究,以实现端对端TB级带宽,组建超过256节点的超级节点,统一超级节点内和超级节点间的通信软件栈,简化开发难度,同时极大减少延时。中国电信将深入开展高性能网络研究,通过端网协同的拥塞控制、动态负载均衡、高性能网络协议、高性能集合通信库等关键技术实现大规模高性能无损组网。中国电信将遵循网络运营商使命,未来在城域范围部署DCN拉远方案,跨DC建立GPU集群,攻克长距传输导致时延、丢包、抖动等网络指标下降的技术难题,整合城域内多算力资源,构建虚拟大算力节点,以高效互联助力大模型庞大算力需求供给。
智算大脑和智能中枢实现泛在调度
智算将成为算力供给的主要形态,以满足大模型训练和推理的需求,智算大脑是整个算力体系的“智能中枢”,是智算编排管理的核心,也是智算发展的关键技术。在国内智算芯片封锁加剧、国产智算芯片生态仍不完善的背景下,加强智算算力的管理和调度是短时间提升智算算力供给的关键技术之一。中国电信将致力于提升泛在算力协同效能,开展“智算大脑”技术攻关,构建一体化智算算力编排、智算算力泛在调度、智算算力解构等端到端智算管理调度解决方案。
云智一体和开放平台赋能千行百业
为切实解决当前大模型上手门槛高、使用成本高、应用落地困难等问题,通过云智一体的智算基础设施以统一云形态承载AI算力,为大模型提供弹性泛在的智能算力支持,同时充分利用云的规模效应和调度能力提升智算算力的利用率、降低使用成本。中国电信将构建开放平台以易用的分布式计算框架高效利用底层硬件设备,采用覆盖全流程的大模型开发运营平台降低大模型使用门槛提升性能,协同合作伙伴丰富大模型应用构建生态,从而引领大模型产业链的发展,以类似水电基础设施供给的方式开放大模型能力,赋能千行百业实现数字化智能化升级。