端侧AI可能带来的算力闲置
端侧AI的性能虽然弱于云侧AI,但更贴近用户使用场景,低延时、高可靠性、低成本、隐私和安全等优势显著,更有机会获得用户的认同和使用。随着今年端侧AI的爆发,端侧的硬件性能得到了大幅提升。
安迪-比尔定理 (Andy and Bill’s Law)是对IT产业中软件和硬件升级换代关系的一个概括。“Andy gives, Bill takes away.(安迪提供什么,比尔拿走什么。)” 安迪指英特尔前CEO安迪·格鲁夫,比尔指微软前任CEO比尔·盖茨,意思是硬件提高的性能,很快被软件消耗掉了。
但是,AI终端(手机、电脑)的AI功能(如文本生成、多模态音视频处理等),目前从场景和使用频率来看,远不及手机、电脑传统的各类功能应用,端侧智能体的生态也尚未形成,当云侧大模型还在拿着锤子找钉子,满世界寻找应用场景的时候,端侧AI又开始抢夺需求,AI的供求失衡很可能出现,导致一定时期内端侧AI的硬件设备处于闲置状态。
端侧AI的边缘算力有多大
以手机为例,根据中国电信研究院2023年“终端智能算力发展指数”报告,截至2023年2月,国内存量手机终端智能算力总规模超7100EOPS,是我国数据中心算力总规模12倍以上。据2024年5月Counterpoint&和联发科发布的《生成式AI手机产业白皮书 》,预计在 2027 年AI手机将会AI手机的存量规模将会从 2023 年的只有百万级别增长至 2027 年的 12.3 亿部, AI手机端侧整体 AI算力将会达到 50000EOPS以上,未来AI 手机将会成为不可忽视的 AI计算资源池。
根据App Annie发布的《2022年移动状态报告》,2021年全球移动设备使用量为3.8万亿小时,平均每天使用3.3小时。QuestMobile 2023中国互联网核心趋势年度报告显示,12.24亿用户每月上网160小时 。由此可见,从用户使用习惯来看,智能手机除了正常每天3-5小时的使用,其余大部分时间处于充电、休眠等开机状态。在多数时间里,AI算力都处于闲置状态。
再来看看AI PC,微软将最低内存配置16GB,至少40 TOPS以上计算能力的电脑定义为AI PC。Canalys预测到2027年AI PC全球出货量预计超过1.7亿台,在总个人电脑出货量的占比超60%,23-27年AI PC出货量 CAGR达63%。按此计算,AI PC 2027年一年的出货量就能新增端侧算力至少68亿TOPS。 AIPC用户在不使用时,可能处于关机/待机状态,但只要有足够的动力驱动,其算力完全可能得到共享利用。
利用AI端侧算力的技术可行性
在端侧算力的利用上,目前主要有六大关键技术,包括层次化端算力感知图模型、面向多终端协同的资源虚拟化技术、多终端协同的数据压缩技术、多粒度多层次端算力调度、面向终端设备的现场级 AI 推理以及端算力的定价机制。
层次化端侧算力感知图模型,试图构建终端设备的算力特征向量(A=[计算资源剩余量,存储资源剩余量,电池剩余量,通信能力,数据感知能力,移动模式,微服务匹配度,隐私保护度]),并根据特征向量评估终端设备的综合算力值。端侧设备能够凭借其智能体实时感知的能力,计算特征向量,评估自身的综合算力值,并提供给需求者。
面向多终端协同的资源虚拟化技术,在边缘计算环境中,海量的端侧设备与包含 CPU、GPU、FPGA、TPU 等不同计算架构的边缘计算基础设施共同构成了极度异构的计算环境。信通院在《边缘算力白皮书》2022》中指出,为了实现不同计算硬件的统一调度,业界从两个方向开展技术研究与实现,以云厂商为代表的边缘计算服务商,通过虚拟化技术将计算资源池化,向用户提供算力资源服务;边缘计算硬件厂商,基于自身硬件产品,提出统一的编程模型,为跨 CPU、GPU、FPGA、专用加速器的开发者提供统一的体验。随着端侧算力的爆发,云厂商会加快做好前者,而端侧设备的厂商,完全有能力也有动力做好后者。
多终端协同的数据压缩技术,端侧设备能够借助自身大模型的非线性映射能力,快速学习到海量数据(如视频、图片)的深层次特征,更加有效地去除掉冗余数据特征,满足海量数据压缩的需求,实现端侧海量数据的低时延传输。
多粒度多层次端算力调度有两方面的工作,一是任务的解构,大型任务无法在单个终端上承载,需要将其根据业务逻辑,资源需求,性能需求,服务持续性,业务流粘性,资源节点统一性等因素,分解成小粒度,简化的算力需求,使业务可以分布式地部署在多个终端算力节点上。二是多层次的算力调度,包括端侧算力网络内部的多层次调度和云边端协同的多层次调度。这两点可以通过端侧AI和云侧AI的协同来实现。
面向终端设备的现场级 AI 推理,实际上就是要求在端侧部署大模型,端侧设备具有的高算力芯片和部署的大模型,能够轻而易举地实现这一关键技术。
端侧算力定价机制是共享端侧算力的基础,在《端侧算力网络白皮书(2022年)》中提出了区块链工作量证明和基于拍卖算法的定价策略。前者可以构建一个端侧算力的区块链,端侧设备通过工作量证明机制获得一定的token奖励,后者可以通过端侧设备的AI AGENT,对算力进行议价,实现算力的共享。
端侧AI算力对电信运营商的意义
1.缓解云侧AI算力消耗,降低数据中心能耗
端侧设备是通过电信网络接入通信网和互联网,因此,运营商可以考虑通过虚拟化技术将计算资源池化,将端侧的算力纳入其算力板块,成为运营商算力的重要组成,通过有效运营带来增量收入,如果运营商不思考如何利用这一算力,很有可能被其它云厂商抢占。
数据中心是耗能大户。据统计,数据中心每年消耗的电力约占全球总发电量的2%。其中,AI计算是数据中心的主要耗能来源之一。端侧设备可以帮助企业降低数据中心的能耗。当AI任务在端侧设备上完成时,就不需要将数据传输到云端进行处理,从而可以节省大量的能源,有效降低数据中心的能耗,减少碳排放。
2.与用户实现共赢
用户将闲置算力共享出去,可以提高终端的利用率,发挥更大价值。从而获得额外的收入。这可以降低部分终端的购买和使用成本。用户通过出租闲置算力获得报酬,报酬的多少取决于闲置算力的数量和质量。例如,如果用户的终端配备了更高性能的AI芯片,那么他可以获得更高的报酬。
运营商可以通过平台将来自多个用户的闲置算力聚合在一起,形成一个巨大的算力资源池。提供给需要AI计算能力的企业和机构。还可以利用其闲置算力来完成一些计算密集型的任务。
例如Folding@home项目,是一个研究蛋白质折叠、误折、聚合及由此引起的相关疾病的分布式计算工程,由斯坦福大学化学系的潘德小组( Pande Group )主持,于 2000 年 10 月 1 日正式启动, Folding@home是目前世界上最大的分布式计算项目。截止目前有超过百万人参与项目,它的计算能力总能达到全球超级计算机 TOP 10 水平。新冠流行期间,Folding@home 向全球发出号召,希望更多人能贡献自己的闲置算力帮助其寻找新冠肺炎的突破口。
表1 边缘算力的贡献(数据来源:Folding@home官网)
还有其它一些边缘算力共享的例子,如Einstein@Home项目基于BOINC平台,利用志愿计算的威力来处理分析LIGO和GEO600采集的海量观测数据,以从中寻找引力波存在的证据。CPDN项目尝试预测21世纪气候等等。
3.风险与挑战
端侧AI作为边缘计算中的新成员,正在逐渐展现出其巨大的潜力。随着技术的进步和应用场景的拓展,端侧AI的算力资源有望被更广泛地共享,实现资源的优化配置和高效利用。
端侧AI算力共享依赖于用户对共享的利益和风险的充分理解。用户是否愿意分享其设备算力,很大程度上取决于他们对共享可能带来的经济激励和服务优化等实际好处的认知,以及对数据安全和隐私保护的担忧。因此,建立一个透明、可靠的共享机制,确保用户数据的安全和隐私,是至关重要的。
共享算力的收益价值是影响用户分享意愿的关键因素。用户需要看到通过共享算力能够获得的实际利益,这可能包括经济补偿、服务优化或其他形式的回报。只有当用户认为共享算力的收益明显大于其潜在风险时,他们才更有可能积极参与。
隐私保护是端侧AI算力共享中不可忽视的问题。必须采取有效的技术措施和管理策略来保护用户的隐私,如数据加密、匿名化处理和访问控制等,以确保用户数据在共享过程中不被滥用或泄露。
端侧AI算力的管理平台同样面临着成本和持续经营能力的挑战。平台需要投入资源进行技术研发、维护运营和市场推广,同时也需要探索可持续的商业模式,以确保平台的长期稳定发展。