LLM agent 技术底层轨迹回顾

不仅仅是"agent 终于来了",而是:我们过去三年把问题看错了。

大家以为大模型落不了地,是因为模型还不够聪明;后来才发现,真正缺的不是"大脑",而是"身体、神经、手、脚、记忆、纪律、边界、反馈回路"。

大模型早就会说了,甚至会说得惊天动地。但它不会稳定地做事。它像一个坐在玻璃房里的天才参谋,地图看得懂,战略讲得漂亮,世界局势分析得头头是道,可是让它去仓库搬一个箱子,它连门在哪里都不知道。

这就是所谓"中看不中用"的本质。

不是模型没知识,不是模型没推理,而是它没有被接入真实世界的执行闭环。

过去三年业界兴奋又失落,是因为大家被"语言智能"震撼了,却低估了"行动智能"的土木工程量。LLM 给了我们一个会理解、会规划、会表达、会生成的核心,但这个核心本身不是产品。它只是发动机,不是汽车。你不能抱着发动机上高速。

真正的突破不是把模型再训大一点,而是有人终于老老实实给它装上了底盘:文件系统,Shell,浏览器,MCP,cron,权限,日志,回滚,skills,memory,delegation,sandbox,watchdog,任务队列,失败复盘,人工确认门,平台适配器。

这些东西单独看都不性感,琐碎枯燥。没有一个能让投资人拍桌子喊 AGI。但是合起来,就是 agent 从"会说"到"会做"的骨架。

这也是为什么 Peter 这种纯粹系统工程师反而率先打穿,而不是头部实验室的天才们。

因为这件事最后不是一个"模型科学家问题",而是一个"操作系统问题"。

模型科学家会问:模型有没有更强的 reasoning?有没有更大的 context?有没有更高的 benchmark?

系统工程师会问:失败了怎么重试?权限怎么收口?状态在哪里保存?工具怎么注册?进程死了谁拉起来?写文件前有没有 diff?发布前有没有确认?浏览器 tab 跑丢了怎么找回来?API 太贵了怎么切 provider?今天成功了,明天怎么复现?用户睡觉以后,它能不能自己跑,但又不能乱跑?

这才是 agent 的真实问题。

大模型之前像一位天才口头禅大师:"我可以帮你写代码。""我可以帮你分析市场。""我可以帮你管理知识库。""我可以帮你自动发稿。"

听起来都对。但一落地就死在很小很脏的地方:cookie 不在这个 session,Chrome 权限没开,React state 没更新,按钮点了没反应,文件路径错了,日志没证据,token 烧爆,发布平台风控,系统重启进程没回来。

这些不是 AGI 问题。这些是水电煤问题。

而真实世界就是由水电煤组成的。

所以 OpenClaw/Hermes 这类东西的"核爆",不是说它突然创造了一个更聪明的模型,而是它把模型嵌进了一个能持续行动的工程壳里。这个壳看似低级,实则决定生死。

我愿意把这条技术革命轨迹概括成四个阶段:

第一阶段,模型震撼期:人类第一次发现机器可以像人一样说话、写作、编程、解释、翻译、总结。这个阶段的关键词是"哇"。

第二阶段,落地失望期:企业开始试用,发现 demo 很美,生产很难。大模型能回答问题,但不能接管流程;能生成方案,但不能保证执行;能写代码,但不能维护系统;能聊天,但不能负责结果。这个阶段的关键词是"然后呢?"

第三阶段,工具接入期:Function calling、RAG、workflow、browser automation、code interpreter、MCP、agent framework 逐渐出现。模型开始有手,但手脚还不协调,动不动撞墙。这个阶段的关键词是"能动了,但不稳"。

第四阶段,系统工程期:真正的突破发生在这里。不是单点工具,而是完整闭环:任务进入、状态保存、工具调用、权限控制、日志证据、错误恢复、人类确认、定时执行、跨平台交付、经验沉淀。这个阶段的关键词是"可运营"。

最后的判断很明确:大模型没有被单独打穿。被打穿的是大模型与现实世界之间那层厚厚的工程绝缘层。谁打穿的?不是最会讲 AGI 故事的人,而是愿意把日志、权限、配置、路径、工具、进程、平台、异常处理这些脏东西一层层接起来的人。

这就是为什么系统工程师 Peter 成为时代人物。因为真正的 agent 不是"一个更聪明的嘴"。真正的 agent 是"一个被工程驯服的大脑"。

LLM agent 技术轨迹四阶段
从模型震撼到系统工程:agent 技术底层轨迹

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理