从 “Fake It” 到 “Vibe It”

老友baojie如是说,字字千钧,全文引用如下:

2026-01-18
vibe it until you make it
by西瓜
1、以前创业的哲学是 fake it until you make it, 现在是 vibe it until you make it。
2、code is cheap, show me the talk.
3、以前的软件是祖传屎山,现在是 vibe出来的一夜屎山。
4、你的编程 agent 也是需要你熟悉的你需要和 AI一起待 2000 个小时才能和它成为好朋友,摸清楚它的脾气。这大概需要一年的时间。
5、软件工程的本质是结构化思维。在agent时代,结构化思维的重要性更放大了,优秀的软件工程师真的可以100x,一个打一百个。
6、拆解能力是核心生产力。结构化思维的核心就是拆解能力。
7、品味 Taste 决定产品的天花板,结构化思维决定产品的地板。
8、工程师要培养的核心能力是品味,而不是最某个 SDK 或者框架的 coding 熟悉度。
9、以前的工程师是一个琴师,现在的工程师是一个乐队指挥。
10、工程师有产品思维 vs 产品经理有工程思维那个更难?无论如何,以前产品需求瀑布式开发的流程过时了。
11、持续学习能力将是所有系统的标配。以前的软件数是死的系统,未来所有的软件都是活的。以前是软件,以后是软件体。
12、软件吞噬世界,AI 吞噬软件,大模型吞噬 Al,Agent 吞噬大模型。
13、以后所有岗位的工作都是软件工作大量的“一次性软件”(JIT 软件)和“脚本软件”是文秘岗位创造的。未来 agent办公软件的地位就和现在的 office 系统样,不会使用的人根本找不到工作。
14、人类过去大部分的需求得不到满足是因为生产产品的成本太高。但是现在生产力十倍以上提高了,以前不成立的商业模式现在可以成立了,会涌现大量的新产品。
15、agent 能产生商业价值的转折点生产有效代码的 TCO 成本降低到每小时 1美元,这样低于地球上任何国家程序员的时薪。具有社会破局力量的平衡点是每天成本 2 美元,这是国际贫困线。目前 agent 的成本还是1小时 10~40 美元。两年之内应该可以达到转折点。
16、工作结算的颗粒度会单人化,Paul Graham《如何创造财富》里描述的主要矛盾可以解决了。
17、未来优秀的工程团队不应该超过 10个人。以前公司上市需要 200 个以上工程师,需要配备更多的“管理”和销售人员。现在,同样的工作,工程师只需要<10 个,需要配备的管理人员就可以降低到几个人。
18、超过 10 个人的公司没有 VC 投资价值,因为它们技术过于落后,居然还需要那么多人。
19、传统的公司制度要死了。创造者为什么要需要那些混蛋的不写代码的人。以后所有的管理人员本质上都是软件工程师,公司本身就是一个软件 (不是个比喻),软件工程这个岗位将吞噬一切岗位。
20、过去公司里大部分的管理任务都是落后的生产力的结果。这些岗位将被消灭。要管理 Al+人的新岗位要出现。
21、人均 100 万美元收入应该是 OPC(One-Person Company)的起步目标。
22、以后的优质企业都应该是 OPC 的集合体。
24、现在的 AI 如同互联网在 1997 年。
25、制约某些地方生产力发展的是落后的生产关系。Agent 就和互联网一样,需要自由,也会创造出新的自由。自由本身是一种生产关系,也是一种生活方式。
26、巨大的生产力进步会把很多糟粕扫进历史的垃圾堆,尽管我们还不能完全预言这个巨大进步的社会学后果,但它一定会发生。

 

Agent 时代工程师与公司的最小形态

——读〈vibe it until you make it〉的一些结构性观察

一、这篇文章讨论的,是生产组织的最小单位

文章并没有在讨论模型参数、算法路线或工具栈,而是在反复指向一个更底层的问题:

当生产力被 agent 极度放大之后,组织还需要维持原来的形态吗?

作者给出的答案非常明确:不需要。

    • 团队规模应该持续缩小(<10 人)
    • 管理层级本身是落后生产力的副产品
    • 公司不再是“人 + 管理”,而是“人 + agent”

这使得“公司”从一个法律/组织概念,退化为一个生产能力单元的集合


二、OPC 的含义:一种生产单元假设

文中多次出现的“单人公司” (OPC),并非工业、是一种隐含的超级个体生产假设

    • 人可以在 agent 的帮助下,承担过去需要一个团队才能完成的工作
    • 单个工程师的产出,可以被放大到“公司级别”
    • 因此,“人均 100 万美元收入”不是目标,而是门槛

在这个语境中,OPC 更像是:

以超级个体为核心、以 agent 为外延的最小商业与工程单元

这也是为什么作者会反复强调:

    • 拆解能力
    • 结构化思维
    • Taste(品味)

这些能力在 OPC 模型中,直接决定单位生产力的上限


三、工程师角色的转变:从“执行者”到“指挥者”

文中的比喻是:

“以前工程师是琴师,现在工程师是乐队指挥。”

这是在描述一个非常具体的变化:

    • 执行本身在变得廉价
    • 协调、拆解、判断在变得稀缺
    • agent 不是工具,而是可并行的“执行层”

在这个结构里,工程师的核心能力不再是:

    • 写了多少行代码
    • 熟悉多少框架

而是:

    • 能否把模糊需求拆成可执行结构
    • 能否判断哪些事情值得让 agent 去做
    • 能否对 agent 的输出进行有效校验和组合

四、“熟悉 agent”的含义:长期协作,而非短期使用

原文提到:

和 AI 一起待 2000 个小时,才能摸清它的脾气。

这句话否定了一个常见误解:

用过 agent ≠ 会用 agent

作者强调的是一种长期协作关系

    • 固定使用同一类 agent
    • 形成稳定的交互模式
    • 对其能力边界有直觉判断

这实际上是一种新的“工程熟练度”定义,不再以 API 或语言为中心,而是以协作稳定性为中心。


五、工程思维在 Agent 时代被“放大”

文章明确指出:

软件工程的本质是结构化思维,在 agent 时代这一点被放大了。

这点非常值得强调。agent 并没有消解工程思维,反而:

    • 放大了架构错误的代价
    • 放大了需求不清的后果
    • 放大了 Taste 对最终产品的影响

在 agent 加速执行的前提下:

    • 好结构 → 指数级放大
    • 坏结构 → 指数级崩塌

六、这篇文章的隐含前提与现实阻力

需要指出的是,原文隐含了几个前提条件:

    1. agent 成本将持续下降
    2. agent 的可靠性将持续提升
    3. 工程师愿意承担更完整的责任闭环

这些前提目前正在成立,但尚未完全成立。因此,OPC 更像是一个正在逼近的形态,而非已经普遍实现的现实。在工程与产品层面,OPC 并非自然演化结果,而是一种高门槛的生产形态

(1)agent 放大的是“结构”,不是“能力下限”

一个常见误解是:

agent 可以弥补工程能力不足。

但在实践中,agent 的真实作用更接近于:

放大已有能力的杠杆

    • 有结构感的人,用 agent 会更快得到正确结果

    • 结构混乱的人,用 agent 会更快得到错误结果

这意味着:
OPC 对工程师的下限要求其实更高,而不是更低。


(2)执行成本下降,并不等于“决策成本消失”

原文反复强调“代码变便宜”“执行变廉价”,这是事实。但随之而来的,是另一个被低估的问题:

决策密度急剧上升。

当 agent 可以在几分钟内生成:

    • 多个实现方案

    • 多种架构选择

    • 大量可运行代码

工程师必须承担的,不再是“做不做”,而是:

    • 选哪一个

    • 舍弃哪几个

    • 哪些方案不值得继续投入

在团队中,这些决策可以分摊;在 OPC 中,它们全部压在一个人身上

(3)OPC 隐含了“全栈责任制”

传统组织中,责任是被拆分的:

    • 产品失败 → 产品经理

    • 架构问题 → 技术负责人

    • 质量问题 → QA

    • 节奏问题 → 管理层

而 OPC 模型下:

所有失败都会回流到同一个人。

这对工程师提出了一个本质性的转变要求:

    • 不仅要能写、能想

    • 还要能判断“什么时候停”“什么时候不做”

这并不是每个优秀工程师都天然具备的能力。

(4)agent 协作的不稳定性,是当前最大的工程摩擦

原文提到“2000 小时熟悉 agent”,是一个非常诚实的判断。

现实中的问题在于:

    • agent 行为仍然存在漂移

    • 工具链频繁变化

    • 上下文长度、记忆、权限边界仍在快速演化

这使得 OPC 在今天更像是一种“工程实验态”,而不是可复制的稳定模式。

(5)小结:OPC 是高阶形态,而非普适形态

因此,一个更保守、也更工程化的判断是:

OPC 会存在,但只属于一小部分工程师。

它不是“AI 普及后的自然结果”,而是工程判断力、结构能力、责任意愿同时成立时,才可能出现的形态。

七、结语:这不是未来学,而是工程组织的再定价

这篇文章的价值,并不在于它是否“预测准确”,而在于它完成了一件重要的事情:

它重新定价了工程师、公司和管理的关系。

 

耳机是你的贴身陪伴吗

耳后、非骨传导、2nm

这不仅仅是 open ai 的新品爆料,这是一次对“AI 边界”的公开下注

这条爆料本身并不长,却异常“干净”:

耳后佩戴、不走骨传导、手机级 2nm 芯片。

没有炫技参数,没有场景故事,但对懂硬件、懂交互、也懂 AI 的人来说,这三点已经把产品野心和死亡边界同时写出来了。

这不是一条耳机新闻,

而是一次对“AI 应该离人多近”的押注。

一、耳后佩戴:这是一个“默认全天在线”的假设

首先是耳后。

任何做过可穿戴的人都知道,佩戴位置不是工业设计问题,而是使用频率假设。

  • 入耳式:假设你“需要它的时候才用”
  • 耳后式:假设你“一直在用,只是没意识到”

选择耳后,意味着一个非常激进的前提:

它不是一个你主动调用的工具,

而是一个长期存在的伴随体。

这一步,已经和传统耳机、智能手表、甚至手机的交互逻辑完全分叉。

二、不走骨传导:这是一次明确的路线切割

真正关键的是第二点:明确否定骨传导。

骨传导的标签太清晰了:

  • 运动
  • 户外
  • 环境感知优先
  • 音质与语言清晰度妥协

而这条新闻在第一时间做的,是“切割”而不是“解释”。

这说明什么?

这个设备的核心输出不是“能听见”,

而是“你愿意听它说话”。

这句话放在 AI 场景里非常重。

因为语言一旦成为主要交互媒介,

模糊、失真、颅内震动感,都会被无限放大为“厌烦”。

这是一个很清醒的判断:

AI 可以低存在感,但不能低清晰度。

三、2nm 手机级芯片:这是“外设”与“中枢”的分界线

第三点,才是真正危险的地方。

一个耳后佩戴的设备,却用手机级 2nm 芯片,这在功耗、成本、架构上都不是“顺手选择”。

这只说明一件事:

它不接受自己只是一个蓝牙外设。

它需要:

  • 本地推理
  • 持续上下文
  • 低延迟响应
  • 不依赖手机随时在线

换句话说,它在结构上被设计为一个并行的认知节点,而不是手机的延伸。

这一步,其实已经在挑战“手机作为唯一智能中枢”的默认共识。

四、真正的剧透:它想介入的不是操作,而是思考

把这三点合起来看,产品意图已经非常清楚了:

  • 不占用你的视觉
  • 不强迫你掏出手机
  • 不要求你完整发号施令
  • 但随时在你思考的边缘待命

它要切入的不是:

  • 搜索
  • 执行
  • 娱乐

而是一个更暧昧、也更危险的区域:

人类认知中的“边角料”:

犹豫、记不清、将就、暂放、以后再说。

这不是效率工具的战场,这是心理负荷的战场。

五、也是因此,它的失败空间被压得极窄

正因为贴得这么近,这类设备反而不能太聪明。

它一旦:

  • 话多一点
  • 主动一点
  • 总结你一点
  • 代表你一点

用户的反应不会是“用不用得习惯”,而是本能性排斥。

对这种设备来说,失败不是因为:

  • 算力不够
  • 模型不强
  • 回答不准

而是因为一个更原始的原因:

它越界了。

六、一个冷结论:下一代 AI 拼的不是能力,是克制

这条新闻真正有价值的地方,不在于它“多先进”,而在于它已经默认承认了一件事:

AI 如果要长期贴身存在,

就必须学会不表现自己。

  • 永远慢半拍
  • 永远低半度
  • 永远不替你下判断
  • 永远允许你继续犯错

否则,它的命运只有一个:

被摘掉,被遗忘,被重新塞回屏幕里。

结尾

所以,与其说这是一次新品爆料,不如说这是一次公开实验:

当 AI 离开屏幕,贴近身体,

人类能容忍它到什么程度?

这不是技术问题,

这是边界问题。

而这条新闻真正剧透的,是一句所有 AI 公司都不太愿意承认的话:

下一代 AI,

不是赢在“更聪明”,

而是赢在“没那么聪明”。

从open ai 主打的 耳后AI耳机谈起

  • 耳後、非骨傳導、2nm

這條新聞,已經把下一代 AI 設備的生死線寫明瞭

最近這條open ai旨在開拓後智能手機時代的AI耳機新聞看似平淡的爆料,其實信息密度極高:

“設備佩戴在耳後,不採用骨傳導,搭載手機級 2nm 芯片。”

很多討論停留在形態、參數,或者“是不是 AirPods 殺手”。

但如果你把这三点放在一起看,它几乎已经把产品哲学、使用场景,乃至失败边界,都提前剧透了。

这不是一条硬件新闻,
而是一次对“AI 应该如何存在于人身边”的公开押注。

一、耳后佩戴:它不想被你“注意到”

首先是耳后。

耳后不是为了好看,也不是为了差异化,而是一个非常明确的选择:

这个设备假设自己会被佩戴很久,甚至整天。

这就立刻排除了两种东西:
• 入耳式的沉浸感
• 强交互、强存在感的设备形态

换句话说,它的目标从一开始就不是“用的时候戴”,
而是**“你生活时它在场”**。

这一步,其实已经把它和传统耳机、可穿戴设备拉开了本质差异。

二、不走骨传导:它要的是“清晰的语言”,不是“随便能听见”

更关键的是第二点:明确声明“不走骨传导”。

这句话不是技术说明,而是一次路线切割。

骨传导的优势是环境感知,但它的代价也非常明确:
• 语音边界模糊
• 细节丢失
• 长时间佩戴带来的颅内不适感

这些缺点,对“听音乐”尚可忍受,
但对一个以语言为主要输出载体的 AI来说,几乎是致命的。

这说明什么?

它并不打算做一个“随便能响”的 AI,
而是一个“你愿意听它说话”的 AI。

这是一个非常重要、但容易被忽略的分水岭。

三、手机级 2nm 芯片:它不是外设,是“并行中枢”

真正让这条新闻变得危险的,是第三点。

一个戴在耳后的设备,
却用的是手机级、2nm 制程的芯片。

这意味着什么,其实不用多说:
• 它不满足于做“蓝牙外设”
• 它不想把智能完全外包给手机
• 它需要本地、持续、低延迟的推理能力

说得直白一点:

它不是手机的附件,
而是试图成为一个并行的“认知节点”。

这一步,已经越过了“耳机”这个物种。

四、把三点连起来看,真实意图就浮出来了

现在把这三点合在一起:
• 耳后佩戴 → 默认长时间存在
• 空气传声 → 以清晰语言为核心
• 手机级算力 → 本地、持续智能

你会发现,它真正想做的并不是“回答问题”,而是:

在你不掏手机、不看屏幕的情况下,
低频、低干扰地参与到你的认知过程中。

这不是 Siri 的升级版,
也不是更聪明的语音助手。

它试图切入的是一个更危险、也更微妙的位置:

人类思考的“边角料”。

五、这条新闻,真正剧透的是“不能做什么”

也正因为如此,这款产品其实一开始就被判了很多死刑。

它不能:
• 太主动
• 太健谈
• 太“懂你”
• 太自信
• 太爱总结你是谁

否则,它会立刻从“陪伴式存在”,
变成“侵犯式存在”。

对这种设备来说,聪明本身不是优势,而是风险。

六、一个反直觉的结论:

下一代 AI,不能太聪明

如果非要给这条新闻一个核心判断,我会用一句反直觉的话总结:

真正能活下来的随身 AI,
不是最聪明的那个,
而是最克制的那个。

它必须:
• 永远慢半拍
• 永远留余地
• 永远不替你做决定
• 永远允许你继续犯错

因为一旦它开始试图成为“更好的你”,
人类的本能反应只会是:摘掉它。

结语

从这个角度看,这条“耳后 + 非骨传导 + 2nm”的新闻,其实已经把赌注押得非常清楚了:

它赌的不是算法领先,
而是一种新的存在方式是否被人类接受。

如果它成功了,
AI 将第一次真正离开屏幕,进入人的生活节奏。

如果它失败了,
失败原因也不会是算力不够、模型不强,
而只会是一个更古老的问题:

它离人,太近了一点点。

全双工到天花板的豆包

这几天罗胖现场演示与豆包吵架的视频在网上疯传。建议都去听听,绝对比脱口秀精彩。

听完我的感觉是:它太会聊天了。不是“会回答”,是“会对打”。不是“能理解”,是“能接招”。你给它一点火星,它能当场把现场变成一段出彩的脱口秀辩论。

刺激的是:我把ChatGPT、Gemini、Claude、Grok 这些美国头部模型在脑子里挨个过了一遍——论智商、论推理、论工具链,确实这些烧钱无数的头部都各有很强的地方;但在chatbot 交互体验,尤其是“陪伴”“情绪价值”“临场反应”“口语节奏”这条赛道上,豆包这种产品给我的冲击很直接:老美这几家,至少在“好玩”和“像人”上,确实没它那么顺。不得不服。

这不是一句“国产更懂中文”就能解释的。它背后是一整套系统工程的胜利:全双工、打断、抢话、人格稳定、指令热更新、超写实语音表演层——这些方面能打,才会出现那种“比真人吵架还丝滑”的错觉。


1. “吵架能力”不是嘴毒,是“反射弧”

你如果只把语音对话当“把文字念出来(TTS)”,那永远理解不了为什么“全双工”能杀人。

所谓“全双工到天花板”,不是它能说,而是:

  • 你一插嘴,它能立刻停住,不拖尾、不尴尬;
  • 你一句话没说完,它就能接茬,像真人那样抢;
  • 你把话题往左一拧,它不会卡半秒去“想想”,而是能顺势把戏接下去;
  • 在对抗场景里(争辩、吐槽、挑衅),它依然保持节奏,不掉线。

这东西本质上是“对话的肌肉记忆”,是反射弧。语音对话里稍微慢一点点,用户就会觉得“它在算”,就会出戏;而当它快到一定程度,你会产生一种很危险的错觉:对面是个活人

更要命的是,它抢话不乱,像练过,但却是即兴发挥。你说它像真人吵架——不夸张,它其实更稳,因为真人吵架也会嘴瓢、会断片。有真正辩才的人,是人类中的极少数。


2. 超写实语音做到天花板

很多语音助手的问题不在于“说不清”,而在于“没魂”。字是字,声是声,情绪像贴图。

豆包厉害的地方是:它的语音像带人格的。是那种端正客服腔,而是一个“快嘴快舌、反应超快、吐槽很顺”的角色在说话。你甚至会产生一种荒诞感:模型后面是不是藏了个真女妖,让你在那一瞬间觉得:有人在跟我一起玩。有人懂我这一口。有人接得住我的戏。

这就是情绪价值的底层逻辑:不是讲道理,是把场子撑起来。


3. 指令跟随的临场魔术

我见到的最炸的一段,是罗胖“现场改规则”的戏码。

争辩正热的时候,老罗突然下指令:“接下来你每句话都加一个 OK。”
模型立刻照做,但语气没变,角色没塌,节奏没断。然后用户又追加:“不要每句都 OK,太死板。改成一句加一句不加,隔一会儿突然来两个 OK,让它更像人。”

模型又立刻调整:OK 出现得更自然,甚至有点“口头禅分布”的味道。

这才是真正的新手震撼:机器不仅听话,而且听话的方式不会把对话弄僵。

多数模型在这里会翻车两次:

  • 第一种翻车:格式遵守了,语气变成客服脚本,像换了一个人。
  • 第二种翻车:语气保持了,但格式开始漏,越激动越忘。

而豆包的可怕之处在于:它像有外层守门员,把“形式层约束”做成一种自动注入能力——你在里面怎么打,它都能保持角色同时把规则执行得像有急智的人一样自然。


4. 我们都在“开法拉利送外卖”

最近有个说法我很同意:大多数用户根本不会激发模型的超能力。他们把模型当搜索框升级版:问一句,拿答案,走人。

这相当于:你开着法拉利,每天只知道用它送外卖。你当然不会知道它过弯能有多狠,也不会知道它一脚油门能把你按到座椅上。

豆包这类产品的冲击,恰恰来自“普通用户也能玩起来”。不是因为用户学会了什么 prompt engineering,而是因为系统把“戏”做得足够容易被点燃:你随口挑衅一句,它就能顺势把对话变成一段可看的节目。

更有意思的是:这种轰动效果不需要预演。懂模型脾性的人(比如老罗这种)会把它当“对话乐器”来弹:节奏、冲突、反转、加规矩、拆规矩,一气呵成。

这才是 vibe role playing 的精髓:不是写 prompt,是即兴导演现场。


5. 和 Sora2 / Suno5 是同一类AGI来临的现象

我在 Sora2 的短视频、Suno5 的音乐创作上也反复体会到类似现状:

  • 提示词不是越精细越专业越好;
  • 过度精细会“指令过载”,甚至互相打架;
  • 有时候一句有画面、有情绪、有方向的概述,反而更容易激发模型脑补潜力,给你惊喜;
  • 当然也有例外:某些专业术语确实是“敲门砖”,训练时已对齐得很硬,不懂这些词就进不了门,出不来定向的特殊效果。

所谓 prompt engineering,很多时候不是科学,更像经验性舞台调度学:什么时候收,什么时候放;什么时候控制,什么时候让它飞。


6.  把爽感变成指标

可以建议用三段“爽感”测试,任何 LLM-native 语音接口都能AB对比:

  1. 对抗辩论:给角色、给冲突,允许打断纠错
  2. 格式热更新:中途插入强规则(口头禅、禁用词、句式、语速)

然后打分看这些指标:

  • 端到端反应时延
  • 打断成功率(停得干不干净)
  • 约束保持率(越吵越不漏规则)
  • 人格稳定性(别吵着吵着变客服)
  • 自我修复能力(漏了能不能自己圆回来,不出戏)
  • 幽默命中率(真实笑出来的频率)

当这些指标都对齐,就会得到一种用户层面极恐怖的结果:人忍不住会愿意跟它多聊,获得乐趣和满足感。这意味着什么?意味着留存,意味着陪伴,意味着付费,意味着口碑传播。你可以不服,但市场会服。


结语:OK 不是口头禅

有人以为“吵架能力”只是嘴毒。错了。真正的亮点是:你怎么插嘴、怎么改规矩、怎么挑衅,它都能接住,且接得像人。

OK 这个小把戏之所以值得反复讲,是因为它是一个极好的试金石:规则一改,戏还在不在?人格还稳不稳?节奏断不断?

当全双工走到天花板,chatbot 的竞争就不再只是“谁更聪明”,而是:谁更像一个活人,谁更能把你接住,谁更能提供情绪价值。

而情绪价值对于 toC 应用,绝对是刚需。

这才是它对所有模型的真正王者挑战。国产大模型从应用角度,完全不输老美,甚至更胜一筹。

 

 

FSD + Grok:超人老司机,带着“实习导游”上路

这几天一个热门话题,媒体标题党写得很嗨:“老马的 Grok 上车了,车载导游时代来了”。我承认我也兴奋——我是那种见新就上手的 early adopter,哪怕它“百孔千疮”,我也愿意先摸摸它的脾气,看看它究竟是“未来已来”,还是“未来还没来 yet”。

但实话实说:亲测下来,现在的 Grok 车载导游,真的很不给力。漏洞百出,幻觉严重。更关键的是——它根本无法与多年武功毕其一役的 FSD 驾驶能力比。

一句话概括我这几天的体感:
二者的配合很不相称:一个是超人老司机,一个是实习导游,稚嫩得可怕。

我有很多具体案例,错路、错指、瞎编、强行自信……以后有时间慢慢说道,逐条分享。今天先把这个现象背后的“系统逻辑”讲透:为什么我一边吐槽 Grok,一边又坚决不泼冷水,甚至更看好它的长期潜力。


1) 你以为它是“导游”,其实它更像“嘴炮导航员”

先把概念捋顺。我们今天说的 Grok 上车(尤其是“导游/助手”这类定位),它的核心不是驾驶控制,而是:

  • 帮你规划和解释路线、讲解周边、回答问题

  • 甚至“建议”去哪、怎么走、为什么这样走

  • 它的行动就是根据你的意思为FSD动态、实时更新导航路线

这类能力,本质是语言模型 + agent 化的接口

问题在于:语言模型最擅长的是“把话说圆”,不是“把事做对”。因此打造 Agent 的重心落在如何训练它做好事的 actions,但那并非一日之功。 

你让LLM写段文案,它能妙笔生花。你让它做一个对现实世界有约束、对错误极其敏感的“导游”,它就容易露馅:幻觉、编造、过度自信、缺乏事实核对——这些在文本世界是“可容错的尴尬”,在车上就是“会把人带沟里”的风险源。

所以我才说Grok当下最多也就是个“实习导游”:有时候很能耐,但也常常信口开河胡乱指挥路线。


2) 飞哥的震惊:这在以前“根本不能上线”

前几天我带 @李志飞 一起体验 FSD + Grok。飞哥大家都知道是第一批回国创业做中国 Siri 以及车载语音助手的老司机创业家,他的关注点非常直接,而且是行业人的那种“条件反射式警觉”:

“Grok 这种幻觉会要人命的啊。”
“它多次胡说八道,导航错误,怎么敢部署到车上,让百万用户敢用呢?”
“关键时刻导错了,司机要是不够灵活、没有判断力,是要出人命的。”

这段反应我非常理解。因为在传统车载助手时代,你要上线一个功能,哪怕“智障但稳定”,它至少可控和安全;而这种“智能 open 但不稳定”的东西,在老派安全工程语境里,通常连 beta 都算不上,顶多算 alpha——甚至很多团队会直接判死刑:不准上路。


3) 但在特斯拉的语境里,FSD 的安全底线,把 Grok 兜住了

这里就出现了一个很有趣、也很关键的结构性差异:特斯拉不是让 Grok 直接接管车辆控制(它更多是在“建议/解释/导游”层面折腾),驾驶安全的底座和全权负责仍然是 FSD。这是两个独立系统的拼接。

这意味着什么?

意味着 Grok 再怎么幻觉、再怎么嘴硬、再怎么瞎指路——只要驾驶执行掌握在 FSD手中不变,安全性就不会被它拖下水。Grok 瞎指挥时候的最大副作用不过是:绕路,耽误时间而已。没有安全性隐患。

这是两套系统的边界:

  • Grok:给你“信息与建议”,更新FSD的导航图,有时对,有时胡说

  • FSD:负责沿着导航图的指向“安全驾驶执行”,有明确的底线策略与约束

我特别想强调这一点:
对于 FSD,无论是人还是 Grok,无论你怎样临时改变路线、在什么时间点改变路线,FSD 都有它的安全底线来应对新的路线。它不会像人类司机那样因为你突然改口就手忙脚乱。

一个不该错过的路口因为临时改线错过了,FSD 会怎么做?它会——让它错过,然后找最佳路径再绕回来。

它忠于一种“安全第一”的内部逻辑,近似于你我都熟的那句老话:宁停三分,不抢一秒。

所以在特斯拉这套组合里,Grok 的“不成熟”反而变得可以容忍:在 FSD 大旗的庇护下,它有慢慢迭代改进的时间和机会。

这句话背后其实是一个行业分水岭:并不是每一个做车载助手的团队,都有 FSD 这种级别的安全底座可兜底。没有这个兜底,它的“幻觉导游”就不只是“绕路”,而是可能直接触发“事故”,有 liability concerns。


4) 我为什么不泼冷水

我对 Grok 现在的表现,确实有点“恨铁不成钢”。但我不会因为它不时“翻车”就断言它没戏。

事实上,我见过 FSD 更百孔千疮的前期,最后还是被老马迭代成“行业标杆”。

五年多前我开始用 FSD Beta 的时候,那真是——各种不稳、各种惊吓、各种“你在干嘛”。但我那时更关注的是 半瓶水中的水,而不是那大半瓶空气。

必须相信老马的迭代狂魔特质:无论见了公婆的媳妇有多丑,他都能不断化妆、美化,最后把这个丑媳妇训练并包装成国民理想媳妇——要形象有形象,要能力有能力。

今天我看 Grok 也是这个逻辑:重要的不是它当下作为数字导游常常翻车、偶儿才露露峥嵘的表现;重要的是——老马敢为人先,用 LLM-native agent 去先干掉 Siri 时代的人工智障。

一句话我愿意重复:
前者智能 open 但不稳定,是朝阳;后者稳定但智障,是夕阳。“平替后者”是大势所趋,是不归路。


5) Grok 的进步会比 FSD 快很多:因为它是“纯软件”,嘴上功夫

这里是我最乐观的判断,也是一条很工程的判断:

  • FSD 是软硬结合的长线条路径:传感器、车规、安全、道路长尾、法规、人类社会系统……每一步都慢,且成本极高

  • 导游/助手 agent 是纯软件:嘴上功夫,迭代周期短,数据驱动强

所以我相信:Grok agent 的进步会比 FSD 快很多,不像 FSD 经过多年的苦苦挣扎才修炼成今天的超人。

哪怕大模型本性有幻觉,但只要:错误驱动、数据驱动、强化不停止,它的性能就会迅速提升,幻觉就会被压缩——虽然不会零幻觉,但总体趋势毋庸置疑。数据闭环的飞轮要让它转。转起来就不愁它不出彩。


6) 现在怎么用:不要把它当“可靠导游”,而当“进化中的实验体”

我现在不大用 Grok 做导游了。我知道它几斤几两,还远没成熟。但我会持续关注它,也愿意不时当当它的小白鼠。我对它的进化曲线非常有兴趣。

在 FSD 这个“超人老司机”旁边,Grok 这个“实习导游”至少不会把车开沟里。
它可以在安全底线被兜住的前提下,去犯错、去改错、去变强。这一点没有疑问。

这可能就是特斯拉最“特斯拉”的地方:
别人家的车载助手必须先证明自己“不会错”,才能上线;
特斯拉选择先把它扔到真实世界里迭代——因为它背后有一个更强的系统把风险挡住。

你可以讨厌这种风格,但你很难否认:它确实更接近“用迭代碾压世界”的那套路径。


结语:今天的 Grok 很稚嫩,但它代表的是agent的方向

我对 Grok 现状的评价:

  • 作为导游,它现在的表现常常不及格

  • 作为第一批把LLM agent 引入功能性智能助手的努力,它值得认真对待

因为它在做一件有分水岭意义的事情:把车载交互从“稳定的人工智障”,推向“开放的智能体”。

稍安勿躁,我们过半年再来聊:
这位“实习导游”到底什么时候能配得上这位“超人老司机”。

 

梁文峰团队的 mHC 研究在做什么

立委按:逢年过节必有新事儿。去年元旦春节那一会儿是闹腾CoT强化推理,DeepSeek 开源推理模型推动了大模型后训练的范式转变。今年梁文峰他们元旦又“闹事”了,但不像CoT那样直观。这次说的是 mHC,听上去就显得高深。值得拆解一下。

DeepSeek 这次的 mHC 论文,第一眼读上去确实有点“技术密度过高”。但它要解决的其实是一个非常朴素、也非常关键的问题:我们能不能在不牺牲训练稳定性的前提下,把模型内部的信息通道修得更宽?

要看懂这件事,得先回到深度学习的一段“地基史”。熟悉神经网络历史的都知道,残差的发明是深度神经能 work 的关键,从而为深度学习革命打稳了基础:就是用 x+f(x) 代替 f(x),来保证多达几百上千层的网络,不至于在不断加深的转换中“差之毫厘,失之千里”,从而稳住训练。

但这里有个“硬核”的底线经常被忽略:残差之所以是残差,不是因为它“加了一条支路”,而是因为它把恒等映射当作守恒机制替深度训练兜底。大模型本质上是一个可编程的函数逼近器,把输入 x 变成输出 y=f(x);而深度一旦上去,你不是在学一个函数,而是在学一串函数的复合。任何一点“不守恒”的东西,都可能被深度放大成数值灾难。残差里那条直通的 x,就是大模型的定海神针。

mHC 的故事,就从“想把这根定海神针加粗成多车道高速,但又不能把稳定性一起赔进去”开始。

把残差从“单车道”扩成“立交桥”

新年第一天,DeepSeek 在 arXiv 放出一篇相当“硬核”的论文:mHC: Manifold-Constrained Hyper-Connections,时间戳是 2025 年 12 月 31 日(v1)。arXiv
作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),还出现了神龙见首不见尾的传奇人物 Wenfeng Liang(梁文锋)arXiv
这篇东西技术性蛮强,但它在解决的,其实是一个很“基础设施级”的老问题:深度网络到底靠什么才能越堆越深而不炸?

01|从残差的“定海神针”说起:为什么 x + F(x) 让深度网络能 work

熟悉神经网络里程碑历史的都知道,残差(Residual / Skip Connection)的发明,是深度神经网络能 work 的关键,从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名;那篇残差论文的引用数,据说在 AI 历史上是绝对的首屈一指。

这是一项发生在十多年前、深度学习革命刚刚开启时,他们在微软做出的里程碑工作。后来,它成了深度神经网络的标准 practice:x+f(x) 代替 f(x)。这条看似朴素的改动,恰恰是为了保证多达几百、上千层的网络,在不断加深的(函数)转换中不至于“差之毫厘,失之千里”,从结构上兜住训练的稳定性(那条 x 的直通路径,本质上就是恒等映射的安全绳)。

我们知道,大模型本质上就是个图灵机:在足够的容量与数据驱动下,它可以规律性地把任何信号输入 x 变成任何其他信号输出 y,也就是实现某个 f(x)。这就是所谓的万能函数近似——老母鸡变鸭的魔术:文生图、机器翻译之类,看上去神奇,背后都是“把 x 变成 y”的系统性变换。正是在这个意义上,残差网络(ResNet)里 x 这条直通连接线,成了大模型的定海神针

因此,ResNet 的核心不是某个更复杂的卷积,而是那条看似朴素的“直通线”——让每一层学习 F(x),但输出是 y = x + F(x)。原论文把这种 直通车道(shortcut) 设计解释为“identity mapping”,它让信息可以跨层稳定传递。

你可以把它当作在深度网络这个“层层加工的工厂”里,额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时,也不至于在复合变换里越走越偏,最终训练崩盘。

ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作,转变为“去除多余的部分”。一块大理石,多余的“残差”去除殆尽,人物自然就成型了。

这件事的关键在于它把恒等映射(identity mapping)塞进了网络:哪怕 F 学得一塌糊涂,x 这条直通路径也能把信号和梯度比较完整地送到更深处,从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白:残差的稳定性,来自恒等映射跨层累积时的结构性保障。arXiv

作为研究背景,一句话总结残差的精神内核:

让网络“可以很深”,靠的不是每层转换多聪明,而是“永远留一条不作妖的直达通路”。

02|单车道不够了:HC 把残差流“扩建成多车道”

传统残差是一条残差流(hidden state 的那条“主干通道”)。但当模型越来越大,研究者会自然产生一个念头:

      • 既然残差流像高速公路的主干,

      • 那我能不能把它从 1 条车道扩成 n 条车道

      • 让信息在不同车道之间更自由地交换、混合,表达力更强?

这就是 Hyper-Connections(HC)这类工作的出发点:把残差流的宽度从 C 扩到 n×C,并引入一个可学习的混合矩阵,把“各条车道”的信息在每层重新路由。在 HC 原论文里,核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。

到这里为止,一切都很美:
路修宽了,车更多了,理论上吞吐更大、信息更丰富。

但问题是:你把高速路扩建成多车道,最怕的不是车多,而是没有交规。

03|HC 为什么会炸:无约束矩阵跨层复合变成“放大器”

残差之所以稳,关键是 identity mapping 这条线天然具备一种“守恒”味道:
你至少能保证有一部分信号,不被层内变换“瞎折腾”(带偏)。

但 HC 的混合矩阵完全自由学习、没有任何约束,跨多层之后,实际上是在做一串矩阵连乘。mHC 论文直说了:HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism(守恒机制)”的角色,导致平均信号强度无法保持,从而出现无界放大或衰减

更直观地讲这种“放大器效应”就是:

  • 如果某几层学到的“残差”在某些方向上“略大于 1”,

  • 经过几十层、上百层复合后,增长会呈指数积累,

  • 最终就是大家熟悉的两种灾难:信号爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型训练的灾难。

不是 HC 多车道思路不对,而是它把原残差网络自带的这根“定海神针”,拆成了“自由的放大链路”。

04|DeepSeek 的一招:把混合矩阵关进“双随机”的笼子里

mHC 的核心思想可以一句话概括:

你可以修立交桥、修多车道;但负责“指挥交通”的矩阵,必须服从一套严格的守恒规则。

他们选择的规则是:把残差约束到所谓 双随机(doubly stochastic / bistochastic)矩阵集合上——元素非负、每一行和每一列都等于 1(归一化)

这样做带来三层非常“工程友好”的稳定性保证:

      1. 凸组合(convex combination)解释
        因为行列和为 1,残差等价于对输入特征做“加权混合”,但权重总量守恒,所以整体更像“搅拌”而不是“放大器”。

      2. 均值守恒 + 范数被严格规整
        论文明确说:这种约束让特征均值保持、信号范数被严格 regularize,从而缓解 信号爆炸/消失(vanishing/exploding)。

      3. 跨层复合仍然稳定(乘法封闭性)
        双随机矩阵相乘仍是双随机矩阵(非负性与行列和约束都能传递),因此“多层连乘”不会越乘越野,守恒性可以贯穿整个深度。

翻译成咱老百姓的话就是:

每一层的混合矩阵,本质上像是在“若干种换道方案(置换)”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”:怎么换道都行,但总车流不能凭空变多或变少。

另外,mHC 还对前后残差引入非负约束(论文用 sigmoid 形式实现),避免正负系数复合导致的数值抵消行为。

05|把“野矩阵”投影成“双随机矩阵”

“利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”,这里的核心是这一步:

      1. 先让矩阵元素变成严格正数

      2. 然后反复做两件事:

        • 归一化每一行(让行和=1)

        • 归一化每一列(让列和=1)
          行列交替迭代,最终收敛到双随机结构。

你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”:
不管你原来学出来的“交警”矩阵多么放飞自我,进训练营一套队列动作做完,它就必须满足“行列守恒”的硬纪律,才能上岗指挥交通。

关于“流形”(manifold)这个术语,可以这样理解:
严格说双随机矩阵集合整体是个凸多胞形(边界有棱角),但在其内部(所有元素严格正)可以视为一个受约束的光滑空间;论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑,而是限制在一个有几何结构的可行集合里”。

06|它不仅是数学,更是工程:6.7% 的代价换稳定与收益

把残差流扩成 n 倍,直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标:它不仅提出数学约束,也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。

最后他们给出的系统级结论是:当 n = 4 时,mHC 只带来约 6.7% 的额外训练时间开销

这点很关键:

如果只讲“理论上更稳”,我们会问“那是不是贵得用不起?”
而这篇论文显然在回答:“我们把它做成了大训练里可落地的结构升级。”

07|一句话总结:mHC 的创新意义在哪?

HC 想把残差从单车道升级成立交桥;mHC 做的,是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性,同时把工程开销压到可接受范围。

这也解释了下列对应关系:

  • 残差的多流并行架构:残差流从 C 变成 n×C,让“通道”更多;

  • 连接矩阵受约束:核心是残差不再自由,而是双随机;

  • Sinkhorn-Knopp:实现“投影/归一化”的具体算法;

  • 解决数值不稳定与信号爆炸:把跨层连乘的放大链条关进“守恒笼子”

残差之所以稳,不是因为“加法神奇”,而是因为它隐含了某种守恒结构;
当我们试图把残差升级成更复杂的拓扑时,真正需要被继承的,是这份守恒,而不是加号本身。

 

 

DS原始论文:arXiv:mHC: Manifold-Constrained Hyper-Connections