大模型时代智算服务平台发展的几点思考

作者:中国电信股份有限公司研究院 孙雪媛 陈元谋 李晨 责任编辑:王鹤迦 2023.12.18 15:37 来源:通信世界全媒体

通信世界网消息(CWW)智算正在从需求驱动的“被动式”发展模式,转向促进通用人工智能的“主动式”模式。2022年11月,OpenAI公司正式推出ChatGPT,推动生成式AI应用进入爆发期,“文心一言”“盘古”等国内大模型层出不穷,智能算力需求呈现“井喷”态势,智算供应也从满足智慧城市、智能应用等需求,逐步向以大模型训练、推理需求为主过渡。根据IDC预测,未来5年我国智能算力规模年复合增长率将达52.3%,高于通用算力的18.5%。

智算产业集群化作用显著,带动人工智能及相关产业快速发展。根据国家信息中心测算,智算中心正在支撑人工智能核心产业及带动相关产业快速发展,“十四五”期间,在智算中心实现80%应用的情况下,城市/地区对智算中心的投资可带动人工智能核心产业增长2.9~3.4倍,带动相关产业增长36~42倍。

政策、需求叠加,助推智算中心加速落地

10月8日,工业和信息化部等六部门印发《算力基础设施高质量发展行动计划》,明确“构建通用、智能和超级算力协同发展的供给体系”。北京、上海、深圳等城市积极围绕人工智能、智算中心等出台系列政策,加强围绕大模型的配套资源支持,吸引国产化芯片企业入驻,并采用政企共建、税收优惠、算力使用优惠券等方式鼓励算力产业发展及应用创新,推进智算中心合理布局,支撑区域人工智能高质量发展。

根据公开信息统计,从2020到2023年,全国35个城市共有在建及投运智算中心44个,在地理分布、算力规模、建设模式、应用场景4个方面呈现以下特点。

在地理分布方面,智算中心集聚在一线及省会城市。智算中心建设以东部为主,京津冀、长三角、粤港澳大湾区占比近66%,并逐步向西部枢纽节点延伸。

在建设模式方面,东部多为政府主导,西部以云服务商自建为主。地方政府牵头主导占比近80%,主要满足当地AI产业发展,且以国产化芯片为主。云服务商以自建大型智算中心为主,如阿里云乌兰察布智算中心、字节跳动与毫末智行共建的山西大同“雪湖·绿洲”智算中心。

在算力规模方面,受需求不清晰、高性能芯片受限等因素影响,智算中心规模普遍偏小。规模在300PFlops以下的智算中心占比超70%,E级算力规模的智算中心仅占25%左右。

在应用场景方面,目前尚处于探索阶段,智慧城市、智慧医疗等仍为主要场景。大型云服务商、科技型企业以面向AI大模型应用为主,用于自身业务发展。政府主要面向智慧城市、工业制造等场景,并通过建设公共智算服务平台,为科研机构和中小企业提供普惠算力服务。如上海公共算力服务平台,已接入腾讯、阿里、商汤科技等企业的智算中心。

内外部因素交织,智算中心呈现集群化、网络化、服务平台化趋势

国外高性能芯片产业供给完备、产业成熟,以超大规模单体智算中心建设为主,智算的服务模式更多依靠云商或科技公司供给,商业化模式成熟。反观我国智算产业处于快速成长期,受制于芯片性能、计算能效、智算组网、计算框架等不成熟,自主E级以上大型智算中心少,智算资源相对分散,短期内借助算力并网实现普惠高效的算力供给将是最佳选择。

集群化:从单节点向东西协同、边端部署演变

计算机视觉、科学计算等多模态大模型的发展以及参数量的规模增长(万亿以上),将带动“东数西训”“东数西渲”成为“东数西算”场景落地的最佳实践,东西跨区域协同将更加突出。

工业级、消费级大模型应用的规模化,加速驱动面向推理的智算中心进一步下沉至边缘,以保障业务低时延、高并发及属地化模型微调需求,“中心训练-缘推理”将成大模型的主流部署方式。

为实现传统业务调用大模型或基于大模型的业务流程重构,传统云数据中心与智算中心组网协同成为必然,未来业务流量将达T级。

网络化:远距RDMA、OTN城域网将成为智算新的组网方式

通过远距RDMA、高性能OTN城域网等新技术,将一定范围内归属于多方的小规模智算中心并联成虚拟的大型智算中心节点,形成区域级算力平台,实现区域内的智算中心互联互通,解决东部热点区域内算力紧缺问题,有望满足大规模算力需求。

服务平台化:连通多方算力,打造算力服务平台,实现算力按需使用

目前,智算服务主要包括提供裸算力资源和提供算力平台服务(PaaS模式),其中,裸算力资源主要以虚拟机或裸金属服务器等方式,借助虚拟化技术,提供CPU、GPU等云服务器,并采用VPC的形式对外提供裸算力及组网服务,以云商为主;算力平台主要面向应用任务,在裸算力的基础上,提供附加模型框架、数据集及模型开发等平台服务,如面向智算场景的中国电信星河、鹏城云脑、阿里飞天智算平台。

智算服务平台实现社会算力服务普适、普惠和高效利用

智算服务平台的意义

智算服务平台是指借助网络整合社会各方算力资源,实现算力资源统一调度,为千行百业提供高质量、低成本算网一体化服务。算力平台作为国内算力供给的新模式,受到行业的普遍关注。

加速算力普惠化,实现从“任务找算力”到“算力适配任务”的转变。智算中心投建成本较高,据国家工信安全中心统计,国内智算中心的平均投资成本高达21.1亿元。算力平台依据任务特性,实现多元异构算力资源的感知、分发、调度及使用,提升资源复用效率,降低算力的建设、使用成本,加速人工智能产业培育。同时,可有效解决算力区域分布不均、供求失衡问题,是“东数西算”工程的有效实施方式。

应对算力短缺,实现“分散性”算力向“聚集性”算力的发展。国内高性能GPU芯片供应受限,因此借助算力平台实现分布式算力的“聚集”,实现集约化、规模化供给,借助平台调度,补齐算力缺口,成为算力高效、高价值使用的新突破口。

提升算力效率,大模型训练呈现周期性平台调度,可实现算力使用的“削峰填谷”。与CPU不同,GPU资源利用率随着计算任务、数据及模型加载等呈现周期性高低不均的特点。一方面,在训练过程中,GPU需与CPU高效协作,且受制于数据准备等待、“计算-存储”协作效率(如备份频次、存储I/O访问时延等)、网络传输性能等,存在间歇性触发的明显峰谷特征;另一方面,推理过程受用户访问量潮汐现象影响,易呈现白天利用率较高、夜晚计算资源空闲的周期性峰谷。借助平台调度实现算力错峰使用,并整合数据集、组件、算法模型提供平台级服务,成为业界运营智算中心的趋势。

智算服务平台发展特点

建设主体:政府、央企及科研院所打造集聚社会多方算力资源的公共算力平台,云服务商更多服务于自主云算力。

政府主导打造属地公共算力平台,实现区域内多方算力的集约化供给,探寻算力多主体间的协同、调度。如北京通管局主导的算力互联互通平台、上海经信委主导的人工智能公共算力服务平台等。根据公开信息统计,行业已发布算力平台16个,其中政府牵头及主导的算力平台数近50%。

运营商借助自身算力与网络资源,探索跨域、异构算力并网、调度、交易等服务。如中国电信发布“息壤”算力分发网络平台,对边缘云、中心云、第三方资源等全网算力进行统一管理和调度,由“息壤”支撑的北京算力互联互通验证平台已落地应用。

云服务商具有自主算力调度及服务的天然优势。云服务商借助自身强大的云管理能力,聚焦企业内部异构算力,实现通算、智算、超算的统一纳管、调度和服务。

科研院所借助算力平台实现科研算力普惠。如科技部分两批公布25个人工智能公共算力开放创新平台建设名单,其中包含湖南大学、之江实验室等,带动产学研人工智能应用落地。鹏城实验室发布中国算力网C2NET,依托“鹏城云脑Ⅱ”E级智算平台,主要面向政府、企业、科研院所以及顶尖AI机构等提供智能算力服务。

服务调度:行业发展乃处于探索期,算力平台以并网交易为主,异构算力调度面临技术难题。

现有算力平台普遍通过API的方式,实现多方算力资源在运营层面的并网对接,为用户提供多元算力的交易服务,第三方算力资源的调度和管理难度大(多主体、异构资源管理调度意愿及技术实现难)。算力平台的长期发展更多需要借助以云原生纳管的方式对第三方算力资源进行统一编排、调度、管理和运维。

智算中心的创新发展,可带动人工智能及相关产业的倍速增长,成为经济增长的新引擎。依托智算服务平台实现通算、智算、超算等异构算力间的统筹调度,将是实现算力普惠、激发应用创新活力的关键。然而,受限于技术的复杂性、多主体间数据安全及隐私顾虑、商业模式的不清晰等因素,未来智算服务平台实现任务跨域调度仍面临诸多挑战,亟待产业各方共同攻关解决。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容