聚焦AI Agent 各界观点浅析

作者:殷舒 李一萌 翟奇 傅镜艺 责任编辑:包建羽 2025.04.01 08:50 来源:中移智库

当下基于大语言模型(LLM)的AI Agent热度高涨,产业界与学术界对其概念阐释多元,随着产业发展渐趋收敛。学术界两篇综述文章构建了不同的LLM智能体框架,在组成模块定义上基本一致。产业界中,OpenAI、Google、苹果、华为、字节跳动等企业对AI Agent有各自解读并推出相关产品或平台。标准方面,多部门联合发布文件将智能体标准制定纳入人工智能标准体系关键技术范畴,3GPP SA1从能力维度初步定义智能体,CCSA多个项目从能力层面对智能体展开探讨。与此同时,业内众多技术大咖也踊跃发声,分享各自对Agent的深刻理解。

概述

当前,“火爆全网”的AI Agent多以大语言模型(LLM)为底层支撑。回溯过往,1995年论文《Intelligent agents: theory and practice》明确划定了Agent的定义及边界,如今基于LLM的Agent依旧未脱离其范畴。当下,各界对Agent概念众说纷纭,产业界与学术界对Agent的理解呈现出百花齐放的态势。产业界基于实际应用需求,学术界着眼理论研究深度,双方视角不同,衍生出多种多样的概念阐释。

不过,随着产业的蓬勃发展,市场竞争与实践检验促使这些纷繁的概念逐渐走向统一,开始收敛至更为明晰、精准的范畴。接下来,将从多个维度梳理不同视角下对AI Agent的认知和定义,力求拨开概念迷雾,洞悉其发展脉络与未来走向。

学术界观点

在2024年发表的《A survey on large language model based autonomous agents》这一综述文章里,针对LLM-based的智能体构建提出了一个极具整合性的统一框架,该框架涵盖了过往大部分相关研究成果。它主要由四大核心模块构成,分别为 Profile、Memory、Planning 以及 Action。其中,Profile模块用于明确智能体的角色特征,通过预设信息指导LLM生成符合特定身份的行为;Memory模块存储环境感知信息,支持智能体积累经验、保持行为一致性;Planning模块将复杂任务分解为可执行步骤,支持智能体自主决策;Action模块将智能体的决策转化为具体行为,直接与环境交互。

2025年,另一篇名为《The rise and potential of large language model based agents: a survey》的综述文章,构建了一个基于LLM的智能体通用概念框架。此框架包含三个关键组件:Brain(大脑)、Perception(感知)和Action(行动)。其中,Brain大脑是智能体的认知核心,负责存储知识、记忆,并执行推理、规划、决策等高级功能,类似于人类的大脑,它主要由LLM构成,通过整合多模态信息和历史经验,指导智能体的行为;Perception感知模块负责采集和处理环境中的多模态信息,将其转化为智能体可理解的表示,类似于人类的感官系统;Action行动模块是智能体与环境交互的执行单元,负责将大脑的决策转化为具体动作,类似于人类的肢体。

上述两篇综述文章对基于LLM的Agent展开深入探讨,虽出自不同时间,但在Agent框架及其组成模块的定义上基本一致。

产业界观点

OpenAI对AI Agent作出阐释:以大语言模型为大脑驱动,具有自主理解感知、规划、记忆和使用工具的能力,能自动化执行完成复杂任务的系统。今年,OpenAI在智能体应用产品领域持续发力,相继推出Operator,该产品专注于计算机 GUI 交互处理,大幅提升人机交互体验;Deep Research则聚焦复杂任务研究,为科研工作者提供强有力的智能辅助。在智能体基础组件板块,OpenAI发布 Responses API,为开发者开放网络检索、计算机操作等一系列丰富的工具调用接口。

Google发布《AI Agent(智能体)技术白皮书》对智能体概念进行了阐述:从广义层面来看,生成式AI Agent可以被定义为一个应用程序,通过观察周围世界并使用可用的工具来实现其目标。智能体具备自主能力,只要设定恰当目标,它们便能独立行动,无需人类干预。近期,Google发布了Gemini 2.0大模型以及Gemini API,为开发者构建智能体应用提供支撑。

苹果在AI Agent领域着重发力移动端场景化应用。自iOS 18系统开始,苹果依托Apple Intelligence全力打造 “个人智能体”,洞察用户日常行为模式,主动为用户提供个性化服务。举例来说,它能够分析用户习惯,自动完成日程安排、邮件智能分类等繁杂事务,让用户在移动端的操作更加高效、便捷,进一步提升用户的移动智能体验。

华为开发者社区对智能体给出术语解释为AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体。不同于传统的人工智能,AI Agent具备通过独立思考、调用工具去逐步完成给定目标的能力。华为发布的《AI终端白皮书》中也给出了他们认为的智能体概念:基于LLM的AI Agent更多是指“一种智能体,可以自主地理解意图、规划决策、执行任务、调用工具,并具有记忆能力”。

字节跳动推出了扣子AI应用开发平台,支持开发者快速搭建基于大模型的各类AI应用。扣子官网对智能体的介绍为:智能体是基于对话的AI项目,它通过对话方式接收用户的输入,由大模型自动调用插件或工作流等方式执行用户指定的业务流程,并生成最终的回复。此外,字节团队还提供豆包AI智能助手平台,该平台是基于云雀模型开发的AI工具,提供聊天机器人、写作助手以及英语学习助手等功能。

信通院在《人工智能发展报告(2024年)》中提到,智能体作为将大模型转变为生产力的主要应用形态,通过智能体工具调用、智能体工作流、智能体人机交互等方式,能够快速理解和响应产业需求,拓宽大模型应用场景,为企业的数字化转型和智能化升级提供强大助力。

标准现状

工业和信息化部、中央网络安全和信息化委员会办公室、国家发展和改革委员会、国家标准化管理委员会联合发布文件《国家人工智能产业综合标准化体系建设指南(2024版)》,该建设指南明确了人工智能标准体系的七个重点方向,涵盖基础共性标准、基础支撑标准、关键技术标准、智能产品与服务标准等部分,其中关键技术标准范畴将智能体的标准制定纳入其中。

在3GPP SA1的6G需求研究报告中,从能力维度对智能体给出初步定义,将其描述为一种自动化智能实体,可以与环境进行交互,获取上下文信息,具备推理、自我学习、决策以及执行任务的能力,可以通过与其他智能体交互完成复杂任务。

CCSA虽尚未对AI智能体形成最终统一定义,但已在多个项目中针对智能体展开探讨,多从智能体应具备的能力层面进行界定,例如在《人工智能关键技术 智能体基础技术能力要求》中,对智能体应具备的技术能力体系进行定义,包括感知认知能力、学习能力、规划能力、记忆能力和执行能力五个能力域,并规定能力子域和能力项,基于不同考察侧重方向,该标准分别设置性能考察项与功能考察项。《网络运营管理智能体通用技术要求》对网络运营管理智能体进行定义,将其视作负责网络运营维护的数字化代理人,能够拆解运营管理任务,自主完成网络运营的感知、分析、决策和执行过程。此外,《面向多智能体系统的计算平台技术要求》标准中引用1997年Franklin.s文章中对智能体的定义,标准重点对多智能体系统的计算平台进行定义,内容涉及架构、计算平台基础设施要求、计算平台系统软件要求、工程设计要求、部署与开发工具链要求、安全设计要求等。

名人见解

OpenAI联合创始人奥尔特曼在近期发表的文章《Three Observations》中强调,OpenAI正在全力布局AI Agent,成千上万的智能体最终会被广泛使用,成为人们在各种业务场景中的“虚拟同事”。OpenAI应用研究主管Lilian Weng去年发表的关于AI Agent的文章,引起业界广泛讨论,她在文中提出Agent=LLM+规划技能+记忆+工具使用的基础架构,其中LLM扮演了Agent的“大脑”,这个系统提供推理、规划等能力。斯坦福大学副教授吴恩达在Snowflake峰会上指出,AI Agent的工作流程使得 AI 应用从玩具新奇品走向实用化。通过迭代和反复的流程,AI Agent可以更有效的完成复杂任务,如代码编写、文档撰写等。随着生成式人工智能基础模型的不断进步,AI Agent在其任务上的自动化程度也逐渐加深。

此外,英伟达公司创始人兼首席执行官黄仁勋在去年的Tech World科技盛会上解释道,AI Agent不仅能够理解人类指令,还能分解工作流程,运用工具协助完成各项复杂的工作,AI Agent将是未来的重要趋势。360集团创始人周鸿祎表示,智能体由感知、角色、流程、记忆、知识库、工具以及复杂推理等七部分能力组成,他认为智能体在未来将通过自动化、降本增效等方式全面改变各个行业的运作模式。

通信世界网版权及免责声明:
1、凡本网注明“来源:通信世界全媒体”及标有原创的所有作品,版权均属于通信世界网。未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载我方内容的单位,也必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和本站来源。
2、凡本网注明“来源:XXX(非通信世界网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请在相关作品刊发之日起30日内进行。
发表评论请先登录
...
热点文章
    暂无内容