为什么 Agent 越讲越乱

最近 Agent 这个词，已经快被讲坏了。

有人说，能调用工具就是 Agent。有人说，能自己规划任务才是 Agent。有人说，能操作电脑、浏览网页、写代码、发邮件，才配叫 Agent。还有人说，多个 AI 彼此协作，那才是真 Agent。

听起来都对。但放在一起，就乱了。

问题不在于大家都错了。恰恰相反，是大家各自抓住了一部分。

Agent 不是突然冒出来的一个新品类。它更像几条技术线，走着走着，开始汇合。

第一条线，是 tool use。模型不再只是聊天，而是会调用搜索、计算器、数据库、代码解释器。这一步解决的是：AI 不能只会说，还要会动手。

第二条线，是 workflow。原来一个任务靠人脑拆分，现在可以写成步骤：先搜索，再整理，再比较，再输出。这其实就是 SOP，是自然语言版的伪代码。它解决的是：AI 不能每次都临场发挥，要有流程。

第三条线，是 computer use。 AI 不只是调用 API，而是像人一样看屏幕、点按钮、填表格、拖文件。这一步很重要，因为现实世界大量任务根本没有干净 API，只能靠界面操作。

第四条线，是 memory。没有记忆的 Agent，只是一次性临时工。有了长期记忆，它才开始像一个熟悉你习惯的助手，知道你喜欢什么、讨厌什么、以前做过什么。

第五条线，是 multi-agent。一个 Agent 搜资料，一个写稿，一个审稿，一个发平台。看起来像分工协作，实际上是在模仿组织结构。

所以大家争论 Agent 到底是什么，其实有点像早年争论「电脑到底是什么」。

是打字机？是计算器？是游戏机？是通信工具？是办公室？

都对。但都只是阶段性的侧影。

今天的 Agent 也是这样。

Tool use 是手。 Workflow 是套路。 Computer use 是身体。 Memory 是经验。 Multi-agent 是组织。

它们一开始像是不同方向，最后却都在往同一个地方走：

让 AI 从「回答问题」，变成「完成事情」。

这就是很多人看不清 Agent 脉络的原因。

他们把 Agent 当成一个功能。但 Agent 其实是一种形态演化。

聊天机器人是嘴。工具调用是手。工作流是习惯。记忆是性格。多 Agent 是小团队。

最后合起来，才慢慢像一个真正能干活的数字劳动力。

所以我觉得，Agent 时代最有意思的地方，不是又多了一个新名词。

而是软件正在从「被动工具」，变成「主动劳动力」。

过去我们打开软件，点菜单，填表格，等结果。以后我们给目标，设边界，看过程，收成果。

这中间差的，不只是一点点自动化。而是一整套人机关系的变化。

当然，现在很多 Agent 还很笨。像刚进公司的实习生，热情很高，理解有限，偶尔还会自作主张。但不能因为实习生笨，就说公司制度没有未来。

真正的问题是：这些能力线什么时候合流？合流以后，谁来定义边界？谁来分配权限？谁来承担责任？

这就进入下一层问题了。

Agent 不只是技术。它正在逼我们重新思考：什么叫工作，什么叫流程，什么叫授权。

🎬 观看视频版

这是今天的立委两分钟，谢谢收看，再见。by Tuya

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复