耳机是你的贴身陪伴吗

耳后、非骨传导、2nm

这不仅仅是 open ai 的新品爆料,这是一次对“AI 边界”的公开下注

这条爆料本身并不长,却异常“干净”:

耳后佩戴、不走骨传导、手机级 2nm 芯片。

没有炫技参数,没有场景故事,但对懂硬件、懂交互、也懂 AI 的人来说,这三点已经把产品野心和死亡边界同时写出来了。

这不是一条耳机新闻,

而是一次对“AI 应该离人多近”的押注。

一、耳后佩戴:这是一个“默认全天在线”的假设

首先是耳后。

任何做过可穿戴的人都知道,佩戴位置不是工业设计问题,而是使用频率假设。

  • 入耳式:假设你“需要它的时候才用”
  • 耳后式:假设你“一直在用,只是没意识到”

选择耳后,意味着一个非常激进的前提:

它不是一个你主动调用的工具,

而是一个长期存在的伴随体。

这一步,已经和传统耳机、智能手表、甚至手机的交互逻辑完全分叉。

二、不走骨传导:这是一次明确的路线切割

真正关键的是第二点:明确否定骨传导。

骨传导的标签太清晰了:

  • 运动
  • 户外
  • 环境感知优先
  • 音质与语言清晰度妥协

而这条新闻在第一时间做的,是“切割”而不是“解释”。

这说明什么?

这个设备的核心输出不是“能听见”,

而是“你愿意听它说话”。

这句话放在 AI 场景里非常重。

因为语言一旦成为主要交互媒介,

模糊、失真、颅内震动感,都会被无限放大为“厌烦”。

这是一个很清醒的判断:

AI 可以低存在感,但不能低清晰度。

三、2nm 手机级芯片:这是“外设”与“中枢”的分界线

第三点,才是真正危险的地方。

一个耳后佩戴的设备,却用手机级 2nm 芯片,这在功耗、成本、架构上都不是“顺手选择”。

这只说明一件事:

它不接受自己只是一个蓝牙外设。

它需要:

  • 本地推理
  • 持续上下文
  • 低延迟响应
  • 不依赖手机随时在线

换句话说,它在结构上被设计为一个并行的认知节点,而不是手机的延伸。

这一步,其实已经在挑战“手机作为唯一智能中枢”的默认共识。

四、真正的剧透:它想介入的不是操作,而是思考

把这三点合起来看,产品意图已经非常清楚了:

  • 不占用你的视觉
  • 不强迫你掏出手机
  • 不要求你完整发号施令
  • 但随时在你思考的边缘待命

它要切入的不是:

  • 搜索
  • 执行
  • 娱乐

而是一个更暧昧、也更危险的区域:

人类认知中的“边角料”:

犹豫、记不清、将就、暂放、以后再说。

这不是效率工具的战场,这是心理负荷的战场。

五、也是因此,它的失败空间被压得极窄

正因为贴得这么近,这类设备反而不能太聪明。

它一旦:

  • 话多一点
  • 主动一点
  • 总结你一点
  • 代表你一点

用户的反应不会是“用不用得习惯”,而是本能性排斥。

对这种设备来说,失败不是因为:

  • 算力不够
  • 模型不强
  • 回答不准

而是因为一个更原始的原因:

它越界了。

六、一个冷结论:下一代 AI 拼的不是能力,是克制

这条新闻真正有价值的地方,不在于它“多先进”,而在于它已经默认承认了一件事:

AI 如果要长期贴身存在,

就必须学会不表现自己。

  • 永远慢半拍
  • 永远低半度
  • 永远不替你下判断
  • 永远允许你继续犯错

否则,它的命运只有一个:

被摘掉,被遗忘,被重新塞回屏幕里。

结尾

所以,与其说这是一次新品爆料,不如说这是一次公开实验:

当 AI 离开屏幕,贴近身体,

人类能容忍它到什么程度?

这不是技术问题,

这是边界问题。

而这条新闻真正剧透的,是一句所有 AI 公司都不太愿意承认的话:

下一代 AI,

不是赢在“更聪明”,

而是赢在“没那么聪明”。

从open ai 主打的 耳后AI耳机谈起

  • 耳後、非骨傳導、2nm

這條新聞,已經把下一代 AI 設備的生死線寫明瞭

最近這條open ai旨在開拓後智能手機時代的AI耳機新聞看似平淡的爆料,其實信息密度極高:

“設備佩戴在耳後,不採用骨傳導,搭載手機級 2nm 芯片。”

很多討論停留在形態、參數,或者“是不是 AirPods 殺手”。

但如果你把这三点放在一起看,它几乎已经把产品哲学、使用场景,乃至失败边界,都提前剧透了。

这不是一条硬件新闻,
而是一次对“AI 应该如何存在于人身边”的公开押注。

一、耳后佩戴:它不想被你“注意到”

首先是耳后。

耳后不是为了好看,也不是为了差异化,而是一个非常明确的选择:

这个设备假设自己会被佩戴很久,甚至整天。

这就立刻排除了两种东西:
• 入耳式的沉浸感
• 强交互、强存在感的设备形态

换句话说,它的目标从一开始就不是“用的时候戴”,
而是**“你生活时它在场”**。

这一步,其实已经把它和传统耳机、可穿戴设备拉开了本质差异。

二、不走骨传导:它要的是“清晰的语言”,不是“随便能听见”

更关键的是第二点:明确声明“不走骨传导”。

这句话不是技术说明,而是一次路线切割。

骨传导的优势是环境感知,但它的代价也非常明确:
• 语音边界模糊
• 细节丢失
• 长时间佩戴带来的颅内不适感

这些缺点,对“听音乐”尚可忍受,
但对一个以语言为主要输出载体的 AI来说,几乎是致命的。

这说明什么?

它并不打算做一个“随便能响”的 AI,
而是一个“你愿意听它说话”的 AI。

这是一个非常重要、但容易被忽略的分水岭。

三、手机级 2nm 芯片:它不是外设,是“并行中枢”

真正让这条新闻变得危险的,是第三点。

一个戴在耳后的设备,
却用的是手机级、2nm 制程的芯片。

这意味着什么,其实不用多说:
• 它不满足于做“蓝牙外设”
• 它不想把智能完全外包给手机
• 它需要本地、持续、低延迟的推理能力

说得直白一点:

它不是手机的附件,
而是试图成为一个并行的“认知节点”。

这一步,已经越过了“耳机”这个物种。

四、把三点连起来看,真实意图就浮出来了

现在把这三点合在一起:
• 耳后佩戴 → 默认长时间存在
• 空气传声 → 以清晰语言为核心
• 手机级算力 → 本地、持续智能

你会发现,它真正想做的并不是“回答问题”,而是:

在你不掏手机、不看屏幕的情况下,
低频、低干扰地参与到你的认知过程中。

这不是 Siri 的升级版,
也不是更聪明的语音助手。

它试图切入的是一个更危险、也更微妙的位置:

人类思考的“边角料”。

五、这条新闻,真正剧透的是“不能做什么”

也正因为如此,这款产品其实一开始就被判了很多死刑。

它不能:
• 太主动
• 太健谈
• 太“懂你”
• 太自信
• 太爱总结你是谁

否则,它会立刻从“陪伴式存在”,
变成“侵犯式存在”。

对这种设备来说,聪明本身不是优势,而是风险。

六、一个反直觉的结论:

下一代 AI,不能太聪明

如果非要给这条新闻一个核心判断,我会用一句反直觉的话总结:

真正能活下来的随身 AI,
不是最聪明的那个,
而是最克制的那个。

它必须:
• 永远慢半拍
• 永远留余地
• 永远不替你做决定
• 永远允许你继续犯错

因为一旦它开始试图成为“更好的你”,
人类的本能反应只会是:摘掉它。

结语

从这个角度看,这条“耳后 + 非骨传导 + 2nm”的新闻,其实已经把赌注押得非常清楚了:

它赌的不是算法领先,
而是一种新的存在方式是否被人类接受。

如果它成功了,
AI 将第一次真正离开屏幕,进入人的生活节奏。

如果它失败了,
失败原因也不会是算力不够、模型不强,
而只会是一个更古老的问题:

它离人,太近了一点点。

全双工到天花板的豆包

这几天罗胖现场演示与豆包吵架的视频在网上疯传。建议都去听听,绝对比脱口秀精彩。

听完我的感觉是:它太会聊天了。不是“会回答”,是“会对打”。不是“能理解”,是“能接招”。你给它一点火星,它能当场把现场变成一段出彩的脱口秀辩论。

刺激的是:我把ChatGPT、Gemini、Claude、Grok 这些美国头部模型在脑子里挨个过了一遍——论智商、论推理、论工具链,确实这些烧钱无数的头部都各有很强的地方;但在chatbot 交互体验,尤其是“陪伴”“情绪价值”“临场反应”“口语节奏”这条赛道上,豆包这种产品给我的冲击很直接:老美这几家,至少在“好玩”和“像人”上,确实没它那么顺。不得不服。

这不是一句“国产更懂中文”就能解释的。它背后是一整套系统工程的胜利:全双工、打断、抢话、人格稳定、指令热更新、超写实语音表演层——这些方面能打,才会出现那种“比真人吵架还丝滑”的错觉。


1. “吵架能力”不是嘴毒,是“反射弧”

你如果只把语音对话当“把文字念出来(TTS)”,那永远理解不了为什么“全双工”能杀人。

所谓“全双工到天花板”,不是它能说,而是:

  • 你一插嘴,它能立刻停住,不拖尾、不尴尬;
  • 你一句话没说完,它就能接茬,像真人那样抢;
  • 你把话题往左一拧,它不会卡半秒去“想想”,而是能顺势把戏接下去;
  • 在对抗场景里(争辩、吐槽、挑衅),它依然保持节奏,不掉线。

这东西本质上是“对话的肌肉记忆”,是反射弧。语音对话里稍微慢一点点,用户就会觉得“它在算”,就会出戏;而当它快到一定程度,你会产生一种很危险的错觉:对面是个活人

更要命的是,它抢话不乱,像练过,但却是即兴发挥。你说它像真人吵架——不夸张,它其实更稳,因为真人吵架也会嘴瓢、会断片。有真正辩才的人,是人类中的极少数。


2. 超写实语音做到天花板

很多语音助手的问题不在于“说不清”,而在于“没魂”。字是字,声是声,情绪像贴图。

豆包厉害的地方是:它的语音像带人格的。是那种端正客服腔,而是一个“快嘴快舌、反应超快、吐槽很顺”的角色在说话。你甚至会产生一种荒诞感:模型后面是不是藏了个真女妖,让你在那一瞬间觉得:有人在跟我一起玩。有人懂我这一口。有人接得住我的戏。

这就是情绪价值的底层逻辑:不是讲道理,是把场子撑起来。


3. 指令跟随的临场魔术

我见到的最炸的一段,是罗胖“现场改规则”的戏码。

争辩正热的时候,老罗突然下指令:“接下来你每句话都加一个 OK。”
模型立刻照做,但语气没变,角色没塌,节奏没断。然后用户又追加:“不要每句都 OK,太死板。改成一句加一句不加,隔一会儿突然来两个 OK,让它更像人。”

模型又立刻调整:OK 出现得更自然,甚至有点“口头禅分布”的味道。

这才是真正的新手震撼:机器不仅听话,而且听话的方式不会把对话弄僵。

多数模型在这里会翻车两次:

  • 第一种翻车:格式遵守了,语气变成客服脚本,像换了一个人。
  • 第二种翻车:语气保持了,但格式开始漏,越激动越忘。

而豆包的可怕之处在于:它像有外层守门员,把“形式层约束”做成一种自动注入能力——你在里面怎么打,它都能保持角色同时把规则执行得像有急智的人一样自然。


4. 我们都在“开法拉利送外卖”

最近有个说法我很同意:大多数用户根本不会激发模型的超能力。他们把模型当搜索框升级版:问一句,拿答案,走人。

这相当于:你开着法拉利,每天只知道用它送外卖。你当然不会知道它过弯能有多狠,也不会知道它一脚油门能把你按到座椅上。

豆包这类产品的冲击,恰恰来自“普通用户也能玩起来”。不是因为用户学会了什么 prompt engineering,而是因为系统把“戏”做得足够容易被点燃:你随口挑衅一句,它就能顺势把对话变成一段可看的节目。

更有意思的是:这种轰动效果不需要预演。懂模型脾性的人(比如老罗这种)会把它当“对话乐器”来弹:节奏、冲突、反转、加规矩、拆规矩,一气呵成。

这才是 vibe role playing 的精髓:不是写 prompt,是即兴导演现场。


5. 和 Sora2 / Suno5 是同一类AGI来临的现象

我在 Sora2 的短视频、Suno5 的音乐创作上也反复体会到类似现状:

  • 提示词不是越精细越专业越好;
  • 过度精细会“指令过载”,甚至互相打架;
  • 有时候一句有画面、有情绪、有方向的概述,反而更容易激发模型脑补潜力,给你惊喜;
  • 当然也有例外:某些专业术语确实是“敲门砖”,训练时已对齐得很硬,不懂这些词就进不了门,出不来定向的特殊效果。

所谓 prompt engineering,很多时候不是科学,更像经验性舞台调度学:什么时候收,什么时候放;什么时候控制,什么时候让它飞。


6.  把爽感变成指标

可以建议用三段“爽感”测试,任何 LLM-native 语音接口都能AB对比:

  1. 对抗辩论:给角色、给冲突,允许打断纠错
  2. 格式热更新:中途插入强规则(口头禅、禁用词、句式、语速)

然后打分看这些指标:

  • 端到端反应时延
  • 打断成功率(停得干不干净)
  • 约束保持率(越吵越不漏规则)
  • 人格稳定性(别吵着吵着变客服)
  • 自我修复能力(漏了能不能自己圆回来,不出戏)
  • 幽默命中率(真实笑出来的频率)

当这些指标都对齐,就会得到一种用户层面极恐怖的结果:人忍不住会愿意跟它多聊,获得乐趣和满足感。这意味着什么?意味着留存,意味着陪伴,意味着付费,意味着口碑传播。你可以不服,但市场会服。


结语:OK 不是口头禅

有人以为“吵架能力”只是嘴毒。错了。真正的亮点是:你怎么插嘴、怎么改规矩、怎么挑衅,它都能接住,且接得像人。

OK 这个小把戏之所以值得反复讲,是因为它是一个极好的试金石:规则一改,戏还在不在?人格还稳不稳?节奏断不断?

当全双工走到天花板,chatbot 的竞争就不再只是“谁更聪明”,而是:谁更像一个活人,谁更能把你接住,谁更能提供情绪价值。

而情绪价值对于 toC 应用,绝对是刚需。

这才是它对所有模型的真正王者挑战。国产大模型从应用角度,完全不输老美,甚至更胜一筹。

 

 

FSD + Grok:超人老司机,带着“实习导游”上路

这几天一个热门话题,媒体标题党写得很嗨:“老马的 Grok 上车了,车载导游时代来了”。我承认我也兴奋——我是那种见新就上手的 early adopter,哪怕它“百孔千疮”,我也愿意先摸摸它的脾气,看看它究竟是“未来已来”,还是“未来还没来 yet”。

但实话实说:亲测下来,现在的 Grok 车载导游,真的很不给力。漏洞百出,幻觉严重。更关键的是——它根本无法与多年武功毕其一役的 FSD 驾驶能力比。

一句话概括我这几天的体感:
二者的配合很不相称:一个是超人老司机,一个是实习导游,稚嫩得可怕。

我有很多具体案例,错路、错指、瞎编、强行自信……以后有时间慢慢说道,逐条分享。今天先把这个现象背后的“系统逻辑”讲透:为什么我一边吐槽 Grok,一边又坚决不泼冷水,甚至更看好它的长期潜力。


1) 你以为它是“导游”,其实它更像“嘴炮导航员”

先把概念捋顺。我们今天说的 Grok 上车(尤其是“导游/助手”这类定位),它的核心不是驾驶控制,而是:

  • 帮你规划和解释路线、讲解周边、回答问题

  • 甚至“建议”去哪、怎么走、为什么这样走

  • 它的行动就是根据你的意思为FSD动态、实时更新导航路线

这类能力,本质是语言模型 + agent 化的接口

问题在于:语言模型最擅长的是“把话说圆”,不是“把事做对”。因此打造 Agent 的重心落在如何训练它做好事的 actions,但那并非一日之功。 

你让LLM写段文案,它能妙笔生花。你让它做一个对现实世界有约束、对错误极其敏感的“导游”,它就容易露馅:幻觉、编造、过度自信、缺乏事实核对——这些在文本世界是“可容错的尴尬”,在车上就是“会把人带沟里”的风险源。

所以我才说Grok当下最多也就是个“实习导游”:有时候很能耐,但也常常信口开河胡乱指挥路线。


2) 飞哥的震惊:这在以前“根本不能上线”

前几天我带 @李志飞 一起体验 FSD + Grok。飞哥大家都知道是第一批回国创业做中国 Siri 以及车载语音助手的老司机创业家,他的关注点非常直接,而且是行业人的那种“条件反射式警觉”:

“Grok 这种幻觉会要人命的啊。”
“它多次胡说八道,导航错误,怎么敢部署到车上,让百万用户敢用呢?”
“关键时刻导错了,司机要是不够灵活、没有判断力,是要出人命的。”

这段反应我非常理解。因为在传统车载助手时代,你要上线一个功能,哪怕“智障但稳定”,它至少可控和安全;而这种“智能 open 但不稳定”的东西,在老派安全工程语境里,通常连 beta 都算不上,顶多算 alpha——甚至很多团队会直接判死刑:不准上路。


3) 但在特斯拉的语境里,FSD 的安全底线,把 Grok 兜住了

这里就出现了一个很有趣、也很关键的结构性差异:特斯拉不是让 Grok 直接接管车辆控制(它更多是在“建议/解释/导游”层面折腾),驾驶安全的底座和全权负责仍然是 FSD。这是两个独立系统的拼接。

这意味着什么?

意味着 Grok 再怎么幻觉、再怎么嘴硬、再怎么瞎指路——只要驾驶执行掌握在 FSD手中不变,安全性就不会被它拖下水。Grok 瞎指挥时候的最大副作用不过是:绕路,耽误时间而已。没有安全性隐患。

这是两套系统的边界:

  • Grok:给你“信息与建议”,更新FSD的导航图,有时对,有时胡说

  • FSD:负责沿着导航图的指向“安全驾驶执行”,有明确的底线策略与约束

我特别想强调这一点:
对于 FSD,无论是人还是 Grok,无论你怎样临时改变路线、在什么时间点改变路线,FSD 都有它的安全底线来应对新的路线。它不会像人类司机那样因为你突然改口就手忙脚乱。

一个不该错过的路口因为临时改线错过了,FSD 会怎么做?它会——让它错过,然后找最佳路径再绕回来。

它忠于一种“安全第一”的内部逻辑,近似于你我都熟的那句老话:宁停三分,不抢一秒。

所以在特斯拉这套组合里,Grok 的“不成熟”反而变得可以容忍:在 FSD 大旗的庇护下,它有慢慢迭代改进的时间和机会。

这句话背后其实是一个行业分水岭:并不是每一个做车载助手的团队,都有 FSD 这种级别的安全底座可兜底。没有这个兜底,它的“幻觉导游”就不只是“绕路”,而是可能直接触发“事故”,有 liability concerns。


4) 我为什么不泼冷水

我对 Grok 现在的表现,确实有点“恨铁不成钢”。但我不会因为它不时“翻车”就断言它没戏。

事实上,我见过 FSD 更百孔千疮的前期,最后还是被老马迭代成“行业标杆”。

五年多前我开始用 FSD Beta 的时候,那真是——各种不稳、各种惊吓、各种“你在干嘛”。但我那时更关注的是 半瓶水中的水,而不是那大半瓶空气。

必须相信老马的迭代狂魔特质:无论见了公婆的媳妇有多丑,他都能不断化妆、美化,最后把这个丑媳妇训练并包装成国民理想媳妇——要形象有形象,要能力有能力。

今天我看 Grok 也是这个逻辑:重要的不是它当下作为数字导游常常翻车、偶儿才露露峥嵘的表现;重要的是——老马敢为人先,用 LLM-native agent 去先干掉 Siri 时代的人工智障。

一句话我愿意重复:
前者智能 open 但不稳定,是朝阳;后者稳定但智障,是夕阳。“平替后者”是大势所趋,是不归路。


5) Grok 的进步会比 FSD 快很多:因为它是“纯软件”,嘴上功夫

这里是我最乐观的判断,也是一条很工程的判断:

  • FSD 是软硬结合的长线条路径:传感器、车规、安全、道路长尾、法规、人类社会系统……每一步都慢,且成本极高

  • 导游/助手 agent 是纯软件:嘴上功夫,迭代周期短,数据驱动强

所以我相信:Grok agent 的进步会比 FSD 快很多,不像 FSD 经过多年的苦苦挣扎才修炼成今天的超人。

哪怕大模型本性有幻觉,但只要:错误驱动、数据驱动、强化不停止,它的性能就会迅速提升,幻觉就会被压缩——虽然不会零幻觉,但总体趋势毋庸置疑。数据闭环的飞轮要让它转。转起来就不愁它不出彩。


6) 现在怎么用:不要把它当“可靠导游”,而当“进化中的实验体”

我现在不大用 Grok 做导游了。我知道它几斤几两,还远没成熟。但我会持续关注它,也愿意不时当当它的小白鼠。我对它的进化曲线非常有兴趣。

在 FSD 这个“超人老司机”旁边,Grok 这个“实习导游”至少不会把车开沟里。
它可以在安全底线被兜住的前提下,去犯错、去改错、去变强。这一点没有疑问。

这可能就是特斯拉最“特斯拉”的地方:
别人家的车载助手必须先证明自己“不会错”,才能上线;
特斯拉选择先把它扔到真实世界里迭代——因为它背后有一个更强的系统把风险挡住。

你可以讨厌这种风格,但你很难否认:它确实更接近“用迭代碾压世界”的那套路径。


结语:今天的 Grok 很稚嫩,但它代表的是agent的方向

我对 Grok 现状的评价:

  • 作为导游,它现在的表现常常不及格

  • 作为第一批把LLM agent 引入功能性智能助手的努力,它值得认真对待

因为它在做一件有分水岭意义的事情:把车载交互从“稳定的人工智障”,推向“开放的智能体”。

稍安勿躁,我们过半年再来聊:
这位“实习导游”到底什么时候能配得上这位“超人老司机”。

 

梁文峰团队的 mHC 研究在做什么

立委按:逢年过节必有新事儿。去年元旦春节那一会儿是闹腾CoT强化推理,DeepSeek 开源推理模型推动了大模型后训练的范式转变。今年梁文峰他们元旦又“闹事”了,但不像CoT那样直观。这次说的是 mHC,听上去就显得高深。值得拆解一下。

DeepSeek 这次的 mHC 论文,第一眼读上去确实有点“技术密度过高”。但它要解决的其实是一个非常朴素、也非常关键的问题:我们能不能在不牺牲训练稳定性的前提下,把模型内部的信息通道修得更宽?

要看懂这件事,得先回到深度学习的一段“地基史”。熟悉神经网络历史的都知道,残差的发明是深度神经能 work 的关键,从而为深度学习革命打稳了基础:就是用 x+f(x) 代替 f(x),来保证多达几百上千层的网络,不至于在不断加深的转换中“差之毫厘,失之千里”,从而稳住训练。

但这里有个“硬核”的底线经常被忽略:残差之所以是残差,不是因为它“加了一条支路”,而是因为它把恒等映射当作守恒机制替深度训练兜底。大模型本质上是一个可编程的函数逼近器,把输入 x 变成输出 y=f(x);而深度一旦上去,你不是在学一个函数,而是在学一串函数的复合。任何一点“不守恒”的东西,都可能被深度放大成数值灾难。残差里那条直通的 x,就是大模型的定海神针。

mHC 的故事,就从“想把这根定海神针加粗成多车道高速,但又不能把稳定性一起赔进去”开始。

把残差从“单车道”扩成“立交桥”

新年第一天,DeepSeek 在 arXiv 放出一篇相当“硬核”的论文:mHC: Manifold-Constrained Hyper-Connections,时间戳是 2025 年 12 月 31 日(v1)。arXiv
作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),还出现了神龙见首不见尾的传奇人物 Wenfeng Liang(梁文锋)arXiv
这篇东西技术性蛮强,但它在解决的,其实是一个很“基础设施级”的老问题:深度网络到底靠什么才能越堆越深而不炸?

01|从残差的“定海神针”说起:为什么 x + F(x) 让深度网络能 work

熟悉神经网络里程碑历史的都知道,残差(Residual / Skip Connection)的发明,是深度神经网络能 work 的关键,从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名;那篇残差论文的引用数,据说在 AI 历史上是绝对的首屈一指。

这是一项发生在十多年前、深度学习革命刚刚开启时,他们在微软做出的里程碑工作。后来,它成了深度神经网络的标准 practice:x+f(x) 代替 f(x)。这条看似朴素的改动,恰恰是为了保证多达几百、上千层的网络,在不断加深的(函数)转换中不至于“差之毫厘,失之千里”,从结构上兜住训练的稳定性(那条 x 的直通路径,本质上就是恒等映射的安全绳)。

我们知道,大模型本质上就是个图灵机:在足够的容量与数据驱动下,它可以规律性地把任何信号输入 x 变成任何其他信号输出 y,也就是实现某个 f(x)。这就是所谓的万能函数近似——老母鸡变鸭的魔术:文生图、机器翻译之类,看上去神奇,背后都是“把 x 变成 y”的系统性变换。正是在这个意义上,残差网络(ResNet)里 x 这条直通连接线,成了大模型的定海神针

因此,ResNet 的核心不是某个更复杂的卷积,而是那条看似朴素的“直通线”——让每一层学习 F(x),但输出是 y = x + F(x)。原论文把这种 直通车道(shortcut) 设计解释为“identity mapping”,它让信息可以跨层稳定传递。

你可以把它当作在深度网络这个“层层加工的工厂”里,额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时,也不至于在复合变换里越走越偏,最终训练崩盘。

ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作,转变为“去除多余的部分”。一块大理石,多余的“残差”去除殆尽,人物自然就成型了。

这件事的关键在于它把恒等映射(identity mapping)塞进了网络:哪怕 F 学得一塌糊涂,x 这条直通路径也能把信号和梯度比较完整地送到更深处,从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白:残差的稳定性,来自恒等映射跨层累积时的结构性保障。arXiv

作为研究背景,一句话总结残差的精神内核:

让网络“可以很深”,靠的不是每层转换多聪明,而是“永远留一条不作妖的直达通路”。

02|单车道不够了:HC 把残差流“扩建成多车道”

传统残差是一条残差流(hidden state 的那条“主干通道”)。但当模型越来越大,研究者会自然产生一个念头:

      • 既然残差流像高速公路的主干,

      • 那我能不能把它从 1 条车道扩成 n 条车道

      • 让信息在不同车道之间更自由地交换、混合,表达力更强?

这就是 Hyper-Connections(HC)这类工作的出发点:把残差流的宽度从 C 扩到 n×C,并引入一个可学习的混合矩阵,把“各条车道”的信息在每层重新路由。在 HC 原论文里,核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。

到这里为止,一切都很美:
路修宽了,车更多了,理论上吞吐更大、信息更丰富。

但问题是:你把高速路扩建成多车道,最怕的不是车多,而是没有交规。

03|HC 为什么会炸:无约束矩阵跨层复合变成“放大器”

残差之所以稳,关键是 identity mapping 这条线天然具备一种“守恒”味道:
你至少能保证有一部分信号,不被层内变换“瞎折腾”(带偏)。

但 HC 的混合矩阵完全自由学习、没有任何约束,跨多层之后,实际上是在做一串矩阵连乘。mHC 论文直说了:HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism(守恒机制)”的角色,导致平均信号强度无法保持,从而出现无界放大或衰减

更直观地讲这种“放大器效应”就是:

  • 如果某几层学到的“残差”在某些方向上“略大于 1”,

  • 经过几十层、上百层复合后,增长会呈指数积累,

  • 最终就是大家熟悉的两种灾难:信号爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型训练的灾难。

不是 HC 多车道思路不对,而是它把原残差网络自带的这根“定海神针”,拆成了“自由的放大链路”。

04|DeepSeek 的一招:把混合矩阵关进“双随机”的笼子里

mHC 的核心思想可以一句话概括:

你可以修立交桥、修多车道;但负责“指挥交通”的矩阵,必须服从一套严格的守恒规则。

他们选择的规则是:把残差约束到所谓 双随机(doubly stochastic / bistochastic)矩阵集合上——元素非负、每一行和每一列都等于 1(归一化)

这样做带来三层非常“工程友好”的稳定性保证:

      1. 凸组合(convex combination)解释
        因为行列和为 1,残差等价于对输入特征做“加权混合”,但权重总量守恒,所以整体更像“搅拌”而不是“放大器”。

      2. 均值守恒 + 范数被严格规整
        论文明确说:这种约束让特征均值保持、信号范数被严格 regularize,从而缓解 信号爆炸/消失(vanishing/exploding)。

      3. 跨层复合仍然稳定(乘法封闭性)
        双随机矩阵相乘仍是双随机矩阵(非负性与行列和约束都能传递),因此“多层连乘”不会越乘越野,守恒性可以贯穿整个深度。

翻译成咱老百姓的话就是:

每一层的混合矩阵,本质上像是在“若干种换道方案(置换)”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”:怎么换道都行,但总车流不能凭空变多或变少。

另外,mHC 还对前后残差引入非负约束(论文用 sigmoid 形式实现),避免正负系数复合导致的数值抵消行为。

05|把“野矩阵”投影成“双随机矩阵”

“利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”,这里的核心是这一步:

      1. 先让矩阵元素变成严格正数

      2. 然后反复做两件事:

        • 归一化每一行(让行和=1)

        • 归一化每一列(让列和=1)
          行列交替迭代,最终收敛到双随机结构。

你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”:
不管你原来学出来的“交警”矩阵多么放飞自我,进训练营一套队列动作做完,它就必须满足“行列守恒”的硬纪律,才能上岗指挥交通。

关于“流形”(manifold)这个术语,可以这样理解:
严格说双随机矩阵集合整体是个凸多胞形(边界有棱角),但在其内部(所有元素严格正)可以视为一个受约束的光滑空间;论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑,而是限制在一个有几何结构的可行集合里”。

06|它不仅是数学,更是工程:6.7% 的代价换稳定与收益

把残差流扩成 n 倍,直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标:它不仅提出数学约束,也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。

最后他们给出的系统级结论是:当 n = 4 时,mHC 只带来约 6.7% 的额外训练时间开销

这点很关键:

如果只讲“理论上更稳”,我们会问“那是不是贵得用不起?”
而这篇论文显然在回答:“我们把它做成了大训练里可落地的结构升级。”

07|一句话总结:mHC 的创新意义在哪?

HC 想把残差从单车道升级成立交桥;mHC 做的,是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性,同时把工程开销压到可接受范围。

这也解释了下列对应关系:

  • 残差的多流并行架构:残差流从 C 变成 n×C,让“通道”更多;

  • 连接矩阵受约束:核心是残差不再自由,而是双随机;

  • Sinkhorn-Knopp:实现“投影/归一化”的具体算法;

  • 解决数值不稳定与信号爆炸:把跨层连乘的放大链条关进“守恒笼子”

残差之所以稳,不是因为“加法神奇”,而是因为它隐含了某种守恒结构;
当我们试图把残差升级成更复杂的拓扑时,真正需要被继承的,是这份守恒,而不是加号本身。

 

 

DS原始论文:arXiv:mHC: Manifold-Constrained Hyper-Connections