最近 Agent 这个词,已经快被讲坏了。
有人说,能调用工具就是 Agent。 有人说,能自己规划任务才是 Agent。 有人说,能操作电脑、浏览网页、写代码、发邮件,才配叫 Agent。 还有人说,多个 AI 彼此协作,那才是真 Agent。
听起来都对。 但放在一起,就乱了。
问题不在于大家都错了。 恰恰相反,是大家各自抓住了一部分。
Agent 不是突然冒出来的一个新品类。 它更像几条技术线,走着走着,开始汇合。
第一条线,是 tool use。 模型不再只是聊天,而是会调用搜索、计算器、数据库、代码解释器。 这一步解决的是:AI 不能只会说,还要会动手。
第二条线,是 workflow。 原来一个任务靠人脑拆分,现在可以写成步骤:先搜索,再整理,再比较,再输出。 这其实就是 SOP,是自然语言版的伪代码。 它解决的是:AI 不能每次都临场发挥,要有流程。
第三条线,是 computer use。 AI 不只是调用 API,而是像人一样看屏幕、点按钮、填表格、拖文件。 这一步很重要,因为现实世界大量任务根本没有干净 API,只能靠界面操作。
第四条线,是 memory。 没有记忆的 Agent,只是一次性临时工。 有了长期记忆,它才开始像一个熟悉你习惯的助手,知道你喜欢什么、讨厌什么、以前做过什么。
第五条线,是 multi-agent。 一个 Agent 搜资料,一个写稿,一个审稿,一个发平台。 看起来像分工协作,实际上是在模仿组织结构。
所以大家争论 Agent 到底是什么,其实有点像早年争论「电脑到底是什么」。
是打字机? 是计算器? 是游戏机? 是通信工具? 是办公室?
都对。 但都只是阶段性的侧影。
今天的 Agent 也是这样。
Tool use 是手。 Workflow 是套路。 Computer use 是身体。 Memory 是经验。 Multi-agent 是组织。
它们一开始像是不同方向,最后却都在往同一个地方走:
让 AI 从「回答问题」,变成「完成事情」。
这就是很多人看不清 Agent 脉络的原因。
他们把 Agent 当成一个功能。 但 Agent 其实是一种形态演化。
聊天机器人是嘴。 工具调用是手。 工作流是习惯。 记忆是性格。 多 Agent 是小团队。
最后合起来,才慢慢像一个真正能干活的数字劳动力。
所以我觉得,Agent 时代最有意思的地方,不是又多了一个新名词。
而是软件正在从「被动工具」,变成「主动劳动力」。
过去我们打开软件,点菜单,填表格,等结果。 以后我们给目标,设边界,看过程,收成果。
这中间差的,不只是一点点自动化。 而是一整套人机关系的变化。
当然,现在很多 Agent 还很笨。 像刚进公司的实习生,热情很高,理解有限,偶尔还会自作主张。 但不能因为实习生笨,就说公司制度没有未来。
真正的问题是: 这些能力线什么时候合流? 合流以后,谁来定义边界? 谁来分配权限? 谁来承担责任?
这就进入下一层问题了。
Agent 不只是技术。 它正在逼我们重新思考:什么叫工作,什么叫流程,什么叫授权。
🎬 观看视频版
这是今天的立委两分钟,谢谢收看,再见。by Tuya