肖弘与Manus:AI Agent 的实战方法论

——一位90后创业者的技术洞见与生态博弈

立委老友群最近热议:

鲁总:现在的一些所谓的agent,都还只是停留在实现工作流。还缺乏自主解决问题的能力,离人们希望的 AGI 还有蛮长的距离。

立委:Manus的做法,所谓通用agent,就放出来的demo来看,已经具有(初步)自主解决问题的能力,不仅仅是对不同场景做不同工作流。对挑选出来的 demos,做了场景优化是可能的;但就路线而言,是具有相当自主性的,并对不同场景做了多 agent 通用流程的概括/抽象。llm应用对接方面,头部厂商一直有动作,也有亮眼的进步,但还是觉得步子太小。也许是因为做模型的人与做产品的人,基因不同。同一家要在两头都是带头人,长久看来也许不太现实。从大模型应用角度看manus,有点集大成的意味。

盘点一下manus 之前大模型应用方面的尝试与进步:1 deep research;2 computer use;3 artifacts / canvas;4 Google 的自动生成 podcast (叫什么来着?);5 GPT Builder / GPT Plug-ins;6 coding agent;7 search & rag;8 a long list of multimedia abilities;9. reasoning & cot。这些全部在为 agent 爆发铺路。尤其是最近爆发的cot推理强化模型,简直就是通用agent起飞的火箭。本来以为能集成这些能力做出超级应用agent,至少还需要半年、一年的时间消化落地。现在看来是保守了。

白老师:从语言学观点看,都是在搭建grounding。让自然语言的语义跨越LLM,平滑来到现实世界,保持LLM对内化知识和grounding有一致的理解能力。这个“一致”,RAG其实并没有达到。

我们用RAG+Function call接本地数据,agent在这一层之上。通过浏览器接口直接“看”系统界面,能不能突破垂域的知识壁垒,对我们来说是个极其重大的问题。所以Manus那边发生的事情,我们正在不断评估。这不仅是技术路线之争,也是超级入口之争。

立委:哪怕 Manus 这词的确有一些夸大其词,或营销过了头,它给agent点的这把火,以及用哪怕是特别优化过的demo给我们所展示的图景,也是功勋。

如果它自己不够硬气,后来倒下了,它所推动的这股大模型应用方向的内卷和加速,也会有厉害角色冒出来。至少人家蓝图画得好。综合各路信息,估计 Manus 有基本实力和某种独特优势,但不够成熟,涉嫌“炒作”。这次炒作其实基本是好事。

白老师:相应的思路、资源和问题,一股脑儿暴露在聚光灯下了。省得去找。

立委:唤醒了市场、用户、投资人,以及一长排对手,西方不亮东方亮。它不成熟,别家会加快成熟。 它们的功劳包括做了比可行性研究更深入广泛也更工程的展现。

吕总:我感觉开放域的agents属于大模型能力的自然延伸,能力壁垒也是由通用大模型决定,很难由第三方做出具有长期价值和壁垒的产品。同时也是现在已经有点狼狈的小虎们的救命稻草。我更看重解决封闭领域内深度问题的agent能力,包括其吸收和处理领域外信息的能力。

白老师:通过看UI,LLM就能正确操作一个垂类业务系统吗?这个我还是有不小的疑问。不暴露业务系统的API,用“看UI”的通用能力对接,就要回应这个挑战。

立委:ui 是超越平台的人机界面,rpa 早就这么做了,是rpa当年能站住的法宝。现在的 computer use 借助视觉大模型的屏幕理解优化,与rpa时代的能力,今非昔比了。

白老师:但是系统界面真的看就能理解吗?OA除外,我说的是业务系统,LLM有这个本事?这还涉及到增量,今后的新系统,难道就为了给agent看UI而设计UI?反正人是不看了,看agent就够了。我觉得到时候一定会有一个裸api标准。而且垂域也会细化自己这个部位。就像XML和各个垂域的标记语言一样。

一、Agent的“活化”时刻

在肖弘的观察中,AI Agent的进化本质是从“工具性”到“生命感”的质变。当Manus的测试案例中,Agent自主调用YouTube快捷键、精准定位视频内容时,团队感受到的不仅是技术突破,更是一种“创造生命”的震撼。这种“A-ha moment”背后,是三大技术跃迁:

1. 环境感知的突破:Agent不再局限于对话框,而是通过虚拟机界面实时操作浏览器、运行代码,形成“数字肢体”;

2. 异步规划能力:从“对话式响应”升级为“任务拆解→自主执行→动态反馈”的闭环,例如自动生成房产研究报告时,Agent能拆分出数据爬取、预算计算、可视化呈现等子任务;

3. 长程记忆机制:用户偏好(如要求表格展示简历排名)会被记忆,下次任务直接应用。

肖弘的洞察
> “Agent的核心不是功能堆砌,而是让用户觉得它就像人类实习生,既听话又带点小聪明。”

二、“新安迪比尔定律”:模型外溢与应用创新的共生法则

这一理论,揭示了LLM时代的技术扩散规律:

- 原典溯源:PC时代的“安迪-比尔定律”(Intel芯片升级→微软系统吃掉算力)在AI时代演变为“模型能力提升→应用公司将其转化为用户价值”。 实战案例:

- Cursor的启示:Claude 3.5模型能力到位后,Cursor通过代码编辑器形态释放其潜力,让非工程师用户也能用自然语言操控代码;
- Manus的“壳”哲学:即使基于DeepSeek等现成模型,通过设计虚拟机操作界面、进度可视化等功能,让模型能力“可触摸”。

创业者生存指南:
> “预判下一个模型能力是什么,提前把应用做好,在前方等着模型能力变强——等它ready,你就赢在自己预见的起跑线上了!”

三、博弈思维:在巨头丛林中开辟生态位

肖弘反对“逻辑推理式悲观”(如“大厂有数据优势必碾压创业者”),主张用动态博弈视角重构竞争:

- 变量思维:DeepSeek开源策略打破游戏规则,让应用层创业者获得“新武器”;
- 生态卡位:专注“脏活累活”——如Manus选择巨头不愿涉足的复杂任务执行场景(简历分析、房产研究),通过用户体验差异化建立壁垒;
- 错位竞争:模型公司聚焦底层能力突破,应用公司深耕垂直场景;
如Manus与DeepSeek的关系:“他们造核弹,我们设计精准投放系统”。

金句:
> “不要问‘巨头会不会做这个’,而要想‘我做了这个,巨头会怎么变’——博弈论里没有注定被吃掉的棋子。”

四、“Be Yourself”哲学:技术浪潮中的定力修炼

肖弘十年创业史的核心经验,是如何在风口与噪音中保持清醒:

1. 抵抗“应激创新”:

- 当行业追逐多模态、元宇宙时,Manus坚持打磨Agent的任务执行闭环;
- 肖弘坦言:“如果2023年跟风做AI绘画工具,可能早被卷死了。”

2. 用户价值的“第一性原理”:

- 从早期产品“壹伴助手”到Manus,始终围绕“让用户少点一次鼠标”;
- 测试阶段引入真实用户参与,甚至容忍“生成《地球伪装火星指南》”的沙雕案例,以理解需求边界。

3. 技术实用主义:

- 不迷信“全自研模型”,善用开源生态(如集成Claude、DeepSeek);
- 但关键模块(如虚拟机环境隔离)必须自主掌控。

创业者戒律:
> “AI时代最危险的幻觉是‘技术至上’——模型再强,不能转化为用户可感知的价值,就是空中楼阁。”

五、Agent未来图景:从数字世界到物理世界的“觉醒”

肖弘对Agent演进的预判,展现了技术现实主义者的大胆想象:

短期落地:

- 云端分身:通过虚拟机实现“无侵入式”操作(如自动填写报销单不触碰本地数据);
- 多Agent协作:规划Agent+执行Agent+质检Agent的分工体系。

长期展望:

- 实体化延伸:与机械臂、人形机器人结合,成为“具身智能”中枢;
- 社会性进化:Agent间形成市场(如算力租赁、任务转包),甚至出现“Agent经济”。

黄仁勋式结尾:
> 当被问及“未来什么会让你惊讶”,肖弘引用了老黄的回答:“Basically nothing(没什么可惊讶的)”——在AI革命中,疯狂本就是新常态。

结语:通透者的生存法则

肖弘的独特之处,在于兼具“技术极客的敏锐”与“街头商人的务实”。他既敢说“用最疯狂的幻想理解AI”,又坚持“用户愿意付费的功能才是真需求”。这种平衡术,或许正是AI应用创业者的终极生存技能:在仰望星空时,永远记得系好安全绳

(注:本文综合自肖弘访谈、Manus技术解析及行业观察,部分案例细节引用自产品演示报道)

【相关】

张小珺 独家对话Manus肖弘:世界不是线性外推,做博弈中的重要变量

发布者

立委

立委博士,出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理