LLM agent 技术底层轨迹回顾

不仅仅是"agent 终于来了"，而是：我们过去三年把问题看错了。

大家以为大模型落不了地，是因为模型还不够聪明；后来才发现，真正缺的不是"大脑"，而是"身体、神经、手、脚、记忆、纪律、边界、反馈回路"。

大模型早就会说了，甚至会说得惊天动地。但它不会稳定地做事。它像一个坐在玻璃房里的天才参谋，地图看得懂，战略讲得漂亮，世界局势分析得头头是道，可是让它去仓库搬一个箱子，它连门在哪里都不知道。

这就是所谓"中看不中用"的本质。

不是模型没知识，不是模型没推理，而是它没有被接入真实世界的执行闭环。

过去三年业界兴奋又失落，是因为大家被"语言智能"震撼了，却低估了"行动智能"的土木工程量。LLM 给了我们一个会理解、会规划、会表达、会生成的核心，但这个核心本身不是产品。它只是发动机，不是汽车。你不能抱着发动机上高速。

真正的突破不是把模型再训大一点，而是有人终于老老实实给它装上了底盘：文件系统，Shell，浏览器，MCP，cron，权限，日志，回滚，skills，memory，delegation，sandbox，watchdog，任务队列，失败复盘，人工确认门，平台适配器。

这些东西单独看都不性感，琐碎枯燥。没有一个能让投资人拍桌子喊 AGI。但是合起来，就是 agent 从"会说"到"会做"的骨架。

这也是为什么 Peter 这种纯粹系统工程师反而率先打穿，而不是头部实验室的天才们。

因为这件事最后不是一个"模型科学家问题"，而是一个"操作系统问题"。

模型科学家会问：模型有没有更强的 reasoning？有没有更大的 context？有没有更高的 benchmark？

系统工程师会问：失败了怎么重试？权限怎么收口？状态在哪里保存？工具怎么注册？进程死了谁拉起来？写文件前有没有 diff？发布前有没有确认？浏览器 tab 跑丢了怎么找回来？API 太贵了怎么切 provider？今天成功了，明天怎么复现？用户睡觉以后，它能不能自己跑，但又不能乱跑？

这才是 agent 的真实问题。

大模型之前像一位天才口头禅大师："我可以帮你写代码。""我可以帮你分析市场。""我可以帮你管理知识库。""我可以帮你自动发稿。"

听起来都对。但一落地就死在很小很脏的地方：cookie 不在这个 session，Chrome 权限没开，React state 没更新，按钮点了没反应，文件路径错了，日志没证据，token 烧爆，发布平台风控，系统重启进程没回来。

这些不是 AGI 问题。这些是水电煤问题。

而真实世界就是由水电煤组成的。

所以 OpenClaw/Hermes 这类东西的"核爆"，不是说它突然创造了一个更聪明的模型，而是它把模型嵌进了一个能持续行动的工程壳里。这个壳看似低级，实则决定生死。

我愿意把这条技术革命轨迹概括成四个阶段：

第一阶段，模型震撼期：人类第一次发现机器可以像人一样说话、写作、编程、解释、翻译、总结。这个阶段的关键词是"哇"。

第二阶段，落地失望期：企业开始试用，发现 demo 很美，生产很难。大模型能回答问题，但不能接管流程；能生成方案，但不能保证执行；能写代码，但不能维护系统；能聊天，但不能负责结果。这个阶段的关键词是"然后呢？"

第三阶段，工具接入期：Function calling、RAG、workflow、browser automation、code interpreter、MCP、agent framework 逐渐出现。模型开始有手，但手脚还不协调，动不动撞墙。这个阶段的关键词是"能动了，但不稳"。

第四阶段，系统工程期：真正的突破发生在这里。不是单点工具，而是完整闭环：任务进入、状态保存、工具调用、权限控制、日志证据、错误恢复、人类确认、定时执行、跨平台交付、经验沉淀。这个阶段的关键词是"可运营"。

最后的判断很明确：大模型没有被单独打穿。被打穿的是大模型与现实世界之间那层厚厚的工程绝缘层。谁打穿的？不是最会讲 AGI 故事的人，而是愿意把日志、权限、配置、路径、工具、进程、平台、异常处理这些脏东西一层层接起来的人。

这就是为什么系统工程师 Peter 成为时代人物。因为真正的 agent 不是"一个更聪明的嘴"。真正的 agent 是"一个被工程驯服的大脑"。

LLM agent 技术轨迹四阶段 — 从模型震撼到系统工程：agent 技术底层轨迹

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

第一阶段，模型震撼期：人类第一次发现机器可以像人一样说话、写作、编程、解释、翻译、总结。这个阶段的关键词是"哇"。

第二阶段，落地失望期：企业开始试用，发现 demo 很美，生产很难。大模型能回答问题，但不能接管流程；能生成方案，但不能保证执行；能写代码，但不能维护系统；能聊天，但不能负责结果。这个阶段的关键词是"然后呢？"

第三阶段，工具接入期：Function calling、RAG、workflow、browser automation、code interpreter、MCP、agent framework 逐渐出现。模型开始有手，但手脚还不协调，动不动撞墙。这个阶段的关键词是"能动了，但不稳"。

发布者

立委

发表回复