为什么 Agent 越讲越乱

最近 Agent 这个词,已经快被讲坏了。

有人说,能调用工具就是 Agent。 有人说,能自己规划任务才是 Agent。 有人说,能操作电脑、浏览网页、写代码、发邮件,才配叫 Agent。 还有人说,多个 AI 彼此协作,那才是真 Agent。

听起来都对。 但放在一起,就乱了。

问题不在于大家都错了。 恰恰相反,是大家各自抓住了一部分。

Agent 不是突然冒出来的一个新品类。 它更像几条技术线,走着走着,开始汇合。

第一条线,是 tool use。 模型不再只是聊天,而是会调用搜索、计算器、数据库、代码解释器。 这一步解决的是:AI 不能只会说,还要会动手。

第二条线,是 workflow。 原来一个任务靠人脑拆分,现在可以写成步骤:先搜索,再整理,再比较,再输出。 这其实就是 SOP,是自然语言版的伪代码。 它解决的是:AI 不能每次都临场发挥,要有流程。

第三条线,是 computer use。 AI 不只是调用 API,而是像人一样看屏幕、点按钮、填表格、拖文件。 这一步很重要,因为现实世界大量任务根本没有干净 API,只能靠界面操作。

第四条线,是 memory。 没有记忆的 Agent,只是一次性临时工。 有了长期记忆,它才开始像一个熟悉你习惯的助手,知道你喜欢什么、讨厌什么、以前做过什么。

第五条线,是 multi-agent。 一个 Agent 搜资料,一个写稿,一个审稿,一个发平台。 看起来像分工协作,实际上是在模仿组织结构。

所以大家争论 Agent 到底是什么,其实有点像早年争论「电脑到底是什么」。

是打字机? 是计算器? 是游戏机? 是通信工具? 是办公室?

都对。 但都只是阶段性的侧影。

今天的 Agent 也是这样。

Tool use 是手。 Workflow 是套路。 Computer use 是身体。 Memory 是经验。 Multi-agent 是组织。

它们一开始像是不同方向,最后却都在往同一个地方走:

让 AI 从「回答问题」,变成「完成事情」。

这就是很多人看不清 Agent 脉络的原因。

他们把 Agent 当成一个功能。 但 Agent 其实是一种形态演化。

聊天机器人是嘴。 工具调用是手。 工作流是习惯。 记忆是性格。 多 Agent 是小团队。

最后合起来,才慢慢像一个真正能干活的数字劳动力。

所以我觉得,Agent 时代最有意思的地方,不是又多了一个新名词。

而是软件正在从「被动工具」,变成「主动劳动力」。

过去我们打开软件,点菜单,填表格,等结果。 以后我们给目标,设边界,看过程,收成果。

这中间差的,不只是一点点自动化。 而是一整套人机关系的变化。

当然,现在很多 Agent 还很笨。 像刚进公司的实习生,热情很高,理解有限,偶尔还会自作主张。 但不能因为实习生笨,就说公司制度没有未来。

真正的问题是: 这些能力线什么时候合流? 合流以后,谁来定义边界? 谁来分配权限? 谁来承担责任?

这就进入下一层问题了。

Agent 不只是技术。 它正在逼我们重新思考:什么叫工作,什么叫流程,什么叫授权。

🎬 观看视频版

这是今天的立委两分钟,谢谢收看,再见。by Tuya

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理