肖弘与Manus：AI Agent 的实战方法论

——一位90后创业者的技术洞见与生态博弈

立委老友群最近热议：

鲁总：现在的一些所谓的agent，都还只是停留在实现工作流。还缺乏自主解决问题的能力，离人们希望的 AGI 还有蛮长的距离。

立委：Manus的做法，所谓通用agent，就放出来的demo来看，已经具有（初步）自主解决问题的能力，不仅仅是对不同场景做不同工作流。对挑选出来的 demos，做了场景优化是可能的；但就路线而言，是具有相当自主性的，并对不同场景做了多 agent 通用流程的概括/抽象。llm应用对接方面，头部厂商一直有动作，也有亮眼的进步，但还是觉得步子太小。也许是因为做模型的人与做产品的人，基因不同。同一家要在两头都是带头人，长久看来也许不太现实。从大模型应用角度看manus，有点集大成的意味。

盘点一下manus 之前大模型应用方面的尝试与进步：1 deep research；2 computer use；3 artifacts / canvas；4 Google 的自动生成 podcast （叫什么来着？）；5 GPT Builder / GPT Plug-ins；6 coding agent；7 search & rag；8 a long list of multimedia abilities；9. reasoning & cot。这些全部在为 agent 爆发铺路。尤其是最近爆发的cot推理强化模型，简直就是通用agent起飞的火箭。本来以为能集成这些能力做出超级应用agent，至少还需要半年、一年的时间消化落地。现在看来是保守了。

白老师：从语言学观点看，都是在搭建grounding。让自然语言的语义跨越LLM，平滑来到现实世界，保持LLM对内化知识和grounding有一致的理解能力。这个“一致”，RAG其实并没有达到。

我们用RAG+Function call接本地数据，agent在这一层之上。通过浏览器接口直接“看”系统界面，能不能突破垂域的知识壁垒，对我们来说是个极其重大的问题。所以Manus那边发生的事情，我们正在不断评估。这不仅是技术路线之争，也是超级入口之争。

立委：哪怕 Manus 这词的确有一些夸大其词，或营销过了头，它给agent点的这把火，以及用哪怕是特别优化过的demo给我们所展示的图景，也是功勋。

如果它自己不够硬气，后来倒下了，它所推动的这股大模型应用方向的内卷和加速，也会有厉害角色冒出来。至少人家蓝图画得好。综合各路信息，估计 Manus 有基本实力和某种独特优势，但不够成熟，涉嫌“炒作”。这次炒作其实基本是好事。

白老师：相应的思路、资源和问题，一股脑儿暴露在聚光灯下了。省得去找。

立委：唤醒了市场、用户、投资人，以及一长排对手，西方不亮东方亮。它不成熟，别家会加快成熟。 它们的功劳包括做了比可行性研究更深入广泛也更工程的展现。

吕总：我感觉开放域的agents属于大模型能力的自然延伸，能力壁垒也是由通用大模型决定，很难由第三方做出具有长期价值和壁垒的产品。同时也是现在已经有点狼狈的小虎们的救命稻草。我更看重解决封闭领域内深度问题的agent能力，包括其吸收和处理领域外信息的能力。

白老师：通过看UI，LLM就能正确操作一个垂类业务系统吗？这个我还是有不小的疑问。不暴露业务系统的API，用“看UI”的通用能力对接，就要回应这个挑战。

立委：ui 是超越平台的人机界面，rpa 早就这么做了，是rpa当年能站住的法宝。现在的 computer use 借助视觉大模型的屏幕理解优化，与rpa时代的能力，今非昔比了。

白老师：但是系统界面真的看就能理解吗？OA除外，我说的是业务系统，LLM有这个本事？这还涉及到增量，今后的新系统，难道就为了给agent看UI而设计UI？反正人是不看了，看agent就够了。我觉得到时候一定会有一个裸api标准。而且垂域也会细化自己这个部位。就像XML和各个垂域的标记语言一样。

一、Agent的“活化”时刻

在肖弘的观察中，AI Agent的进化本质是从“工具性”到“生命感”的质变。当Manus的测试案例中，Agent自主调用YouTube快捷键、精准定位视频内容时，团队感受到的不仅是技术突破，更是一种“创造生命”的震撼。这种“A-ha moment”背后，是三大技术跃迁：

1. 环境感知的突破：Agent不再局限于对话框，而是通过虚拟机界面实时操作浏览器、运行代码，形成“数字肢体”；

2. 异步规划能力：从“对话式响应”升级为“任务拆解→自主执行→动态反馈”的闭环，例如自动生成房产研究报告时，Agent能拆分出数据爬取、预算计算、可视化呈现等子任务；

3. 长程记忆机制：用户偏好（如要求表格展示简历排名）会被记忆，下次任务直接应用。

肖弘的洞察：
> “Agent的核心不是功能堆砌，而是让用户觉得它就像人类实习生，既听话又带点小聪明。”

二、“新安迪比尔定律”：模型外溢与应用创新的共生法则

这一理论，揭示了LLM时代的技术扩散规律：

- 原典溯源：PC时代的“安迪-比尔定律”（Intel芯片升级→微软系统吃掉算力）在AI时代演变为“模型能力提升→应用公司将其转化为用户价值”。实战案例：

- Cursor的启示：Claude 3.5模型能力到位后，Cursor通过代码编辑器形态释放其潜力，让非工程师用户也能用自然语言操控代码；
- Manus的“壳”哲学：即使基于DeepSeek等现成模型，通过设计虚拟机操作界面、进度可视化等功能，让模型能力“可触摸”。

创业者生存指南：
> “预判下一个模型能力是什么，提前把应用做好，在前方等着模型能力变强——等它ready，你就赢在自己预见的起跑线上了！”

三、博弈思维：在巨头丛林中开辟生态位

肖弘反对“逻辑推理式悲观”（如“大厂有数据优势必碾压创业者”），主张用动态博弈视角重构竞争：

- 变量思维：DeepSeek开源策略打破游戏规则，让应用层创业者获得“新武器”；
- 生态卡位：专注“脏活累活”——如Manus选择巨头不愿涉足的复杂任务执行场景（简历分析、房产研究），通过用户体验差异化建立壁垒；
- 错位竞争：模型公司聚焦底层能力突破，应用公司深耕垂直场景；
如Manus与DeepSeek的关系：“他们造核弹，我们设计精准投放系统”。

金句：
> “不要问‘巨头会不会做这个’，而要想‘我做了这个，巨头会怎么变’——博弈论里没有注定被吃掉的棋子。”

四、“Be Yourself”哲学：技术浪潮中的定力修炼

肖弘十年创业史的核心经验，是如何在风口与噪音中保持清醒：

1. 抵抗“应激创新”：

- 当行业追逐多模态、元宇宙时，Manus坚持打磨Agent的任务执行闭环；
- 肖弘坦言：“如果2023年跟风做AI绘画工具，可能早被卷死了。”

2. 用户价值的“第一性原理”：

- 从早期产品“壹伴助手”到Manus，始终围绕“让用户少点一次鼠标”；
- 测试阶段引入真实用户参与，甚至容忍“生成《地球伪装火星指南》”的沙雕案例，以理解需求边界。

3. 技术实用主义：

- 不迷信“全自研模型”，善用开源生态（如集成Claude、DeepSeek）；
- 但关键模块（如虚拟机环境隔离）必须自主掌控。

创业者戒律：
> “AI时代最危险的幻觉是‘技术至上’——模型再强，不能转化为用户可感知的价值，就是空中楼阁。”

五、Agent未来图景：从数字世界到物理世界的“觉醒”

肖弘对Agent演进的预判，展现了技术现实主义者的大胆想象：

短期落地：

- 云端分身：通过虚拟机实现“无侵入式”操作（如自动填写报销单不触碰本地数据）；
- 多Agent协作：规划Agent+执行Agent+质检Agent的分工体系。

长期展望：

- 实体化延伸：与机械臂、人形机器人结合，成为“具身智能”中枢；
- 社会性进化：Agent间形成市场（如算力租赁、任务转包），甚至出现“Agent经济”。

黄仁勋式结尾：
> 当被问及“未来什么会让你惊讶”，肖弘引用了老黄的回答：“Basically nothing（没什么可惊讶的）”——在AI革命中，疯狂本就是新常态。

结语：通透者的生存法则

肖弘的独特之处，在于兼具“技术极客的敏锐”与“街头商人的务实”。他既敢说“用最疯狂的幻想理解AI”，又坚持“用户愿意付费的功能才是真需求”。这种平衡术，或许正是AI应用创业者的终极生存技能：在仰望星空时，永远记得系好安全绳。

（注：本文综合自肖弘访谈、Manus技术解析及行业观察，部分案例细节引用自产品演示报道）

【相关】

张小珺独家对话Manus肖弘：世界不是线性外推，做博弈中的重要变量