通信世界网消息(CWW)当前,AI大模型不再束之云端,而是逐步渗透至手机、PC、汽车等终端产品,端侧AI算力快速提升,上游芯片环节将走向何方?NPU又将扮演怎样的关键角色?近日,在第12届中国硬科技产业链创新趋势峰会上,安谋科技产品总监鲍敏祺出席并发表主题演讲。他表示,端侧AI时代,芯片创新对提升算力、优化能效比有关键作用,安谋科技将持续为AIoT、智能汽车等新兴领域不断迭代的计算需求,提供更为全面和高效的芯片解决方案。
AIGC大模型带来算力提升,也为端侧AI带来了新机遇,Apple Intelligence、骁龙8至尊版等产品的发布,使端侧AI逐渐获得公众认可。当前,越来越多的国内外厂商,从商业化的角度去推动大模型发展,芯片厂商也基本上达成共识,将AI NPU作为未来重点投入的对象。
鲍敏祺表示,端侧AI优势在于时效性和数据本地化的安全性,未来端侧模型将持续向多模态、智能体演进,手机、PC、可穿戴产品等硬件也将积极推动AI算力提升,为用户带来额外的使用价值,为厂商带来潜在的商业价值。
不过,云端模型有更强的能力,能够获得更大的理解力,与云端模型相比,端侧AI面临Cost、Power、Ecosystem等方面的挑战。概括来说就是,存储介质要进一步提高存储度和带宽能力;芯片面积、能效设计要更贴合终端设备;既要通过技术创新减少能源消耗,也要降低算力成本;软件和工具需要更多优化和支持。
为此,安谋科技自研了“周易”NPU,致力于解决上述问题。
目前阶段的“周易”NPU仍然保留一部分CNN能力,并对transformer大模型进行了增强,进一步提高算力。在Efficiency方面,尽量实现数据本地化,从算法、工具链上实现低精度量化,并对低精度计算做更多的硬件加速。在Compression方面,在数据量、体量一定的情况下,通过内容压缩,获得更高的等效带宽。在In-NPU interconnection方面,针对于大模型做一些总线带宽的扩展。同时,安谋科技也致力于提升能效,通过数据本地化、负载均衡等方式,减少数据搬运,进一步提升能效比。
对于下一代“周易”NPU具备的能力,鲍敏祺介绍道,下一代NPU将继承并显著增强前代NPU强算力、易部署和可编程等特点优势,并对通用计算能力进行优化,如围绕精度、带宽、调度管理、算子支持等多个方面持续优化。整个NPU的设计也会同时考虑现在和未来的存储介质,使NPU更好地满足当前及未来的市场需求。
同时,下一代“周易”NPU将针对GenAI进行优化,在生态方面,针对Wenxin、Llama、GPT等模型做对应的部署。在端侧的PAD、PC等各类场景中,都有一定的产品形态或者布局。对于汽车,无论是IVI还是ADAS,都能根据实际场景匹配算力、模型,有针对性地提供最高320tops的AI算力。
此外,鲍敏祺还介绍了安谋科技在智能汽车、手机、PC、AIOT等场景的差异化策略。据介绍,“周易”NPU能够覆盖ADAS、智能座舱、车载娱乐系统等不同汽车场景,搭载“周易”NPU的芯擎科技“龍鷹一号”已累计出货超过40万片,并成功定点应用于吉利旗下的领克、银河系列以及一汽红旗等20余款主力车型中。下一代“周易”NPU将增强自动驾驶AI上面的计算能力和效率。
最后,鲍敏祺表示,安谋科技将抓牢端侧AI带来的机遇,更深入地了解不同客户的需求,提供更加定制化、差异化的芯片解决方案。