OpenClaw as a case study of the coming Agentic AI era

The agent era just hit a visible inflection point, and OpenClaw is a useful (and slightly terrifying) case study.

What’s striking about OpenClaw is not a technical breakthrough. It didn’t train a new model. It didn’t propose a new reasoning mechanism. It didn’t “beat” scaling laws.

It did something simpler—and far more consequential: it connected an already-strong LLM to real-world execution privileges.

Browser control. Filesystem access. Shell execution. API orchestration.

The model always had the “brain.” What changed is that we finally handed it the “keys.”

That’s why OpenClaw feels like a capability explosion. The intelligence didn’t suddenly appear; it was already there. We just didn’t dare to give it OS-level agency. OpenClaw shows us, in a vivid and unfiltered way, what happens when we do.

There’s also a psychological accelerant here: local deployment.

When something runs on your own machine, it creates a strong sense of sovereignty—“my process, my disk, I can kill it anytime, worst case I pull the plug.” That physical sense of control is real, but the safety inference often isn’t.

Local deployment improves visibility and the feeling of controllability. It does not automatically reduce the attack surface. Prompt injection doesn’t disappear because the agent is local. Permission creep doesn’t shrink because the hardware sits on your desk. Visibility can create calm; calm can be mistaken for security. That “controllability illusion” is arguably a major reason agentic systems are suddenly easier for people to accept.

The deeper reason this moment feels explosive, though, is composition.

In the traditional software world, capability composition is slow and human-driven—projects, teams, tickets, code, deployment, an entire lifecycle of a software development and deployment. In the “LLM + skills” world, composition becomes real-time, automated, and continuous. An agent can run 24/7, try pathways, fail, self-correct, and recombine tools endlessly. When capabilities are modular functions or skills, combinatorics becomes the growth engine. Explosion is not a metaphor; it’s the natural math of composition.  Hence the explosion.

It’s also telling that an open-source / individual-driven project became the flashpoint. Large companies have strong reasons not to grant OS-level permissions lightly: legal liability, brand risk, regulatory pressure, and security maturity constraints. Individuals and small teams have fewer brakes. With fewer constraints, capabilities surface faster, making it a clearer window into the future agent world.

All of this reframes the real safety problem.

LLMs are the brain. Agents are the hands.

The brain-safety conversation has been loud for two years. The hand-safety conversation is just beginning, a much riskier and more challenging one. A wrong answer is frustrating. A wrong action can be irreversible. Killing a process isn’t governance. Pulling the plug isn’t governance. Governance means boundary verification and least-privilege execution designed into the architecture, not added as a last-minute guardrail.

We may still debate whether “AGI” is here. But one thing is already clear: we’ve entered the era of automated action. 2025-2026 marks the phase transition from generative AI era into agentic AI.  The central challenge now is not purely technical—it’s designing a workable balance between delegated power and embedded safety, before the diffusion of OS-level agency outpaces the diffusion of governance.

Agent 时代的临界点:谈谈 OpenClaw 的安全隐患

立委按:OpenClaw 这个“春节小龙虾”的爆火,非常现象级。本来应该是极客社区的玩闹,结果引发整个产业的热闹。外网内网,几乎无人不谈。agent 为什么要借助它才火、才被看见?根子是本地部署给人一种安全感,但可能是一种虚假的安全,一种“可控幻觉”。open source 的这个 openclaw agent framework 里面几乎没有任何安全防护。现在看到的 openclaw 无所不能,只能算agent 潜力在没有顾忌的理想世界里的活生生的展示。一个个人开发者,用现有模型和开源框架,就能拼出这种级别的 Agent,说明了什么?说明了,“核武器”似乎开始了民间扩散的迹象。OpenClaw 之所以震撼,不是因为它创造了新能力;而是因为它第一次让我们看清,大模型的能力一直在那里,只是我们之前不敢给它钥匙。OpenClaw让我们加速看到了能力爆炸的样子。为什么能力会爆炸?因为能力是函数技能组合出来的,组合的本性就是爆炸。前 llm-agent 时代,组合这些能力都是码农手工做,是要软件立项,一个一个整。在llm与skills生态分工合作的agentic-AI新时代,一切能力都可以随时组合。OpenClaw 在那里24小时不吃不喝不睡在做组合,现场试错,反复修正,不爆发才怪,我们仿佛进入一个“只怕想不到,不怕做不到”的agi时代。前一阵子的豆包手机的惊艳表现,与现在极客弄出来的这个openclaw爆火,都说明了:不是没有需求,也不是没有技术,更不是核弹还不够威力,而是需要一个不断放权的时机和触发点。但安全隐患会成为今后最大的挑战。
 
key takeaways:本地部署带来“可控幻觉”;开源 Agent 几乎无安全护栏;能力爆炸来自组合,而不是单点突破;大厂没敢给“操作系统权限”,个人开发者敢;风险扩散速度可能快于治理速度;Agent 爆发是放权与安全的平衡问题,而不是纯技术障碍;80% 软件可能被重写。

一、OpenClaw 不是能力突破,而是权限解锁

OpenClaw 的震撼,并不来自新的算法。

它没有训练新模型。没有提出新的推理机制。没有突破 Scaling Law。

它做的只有一件事:把已经足够强的大模型,接上了真实世界的执行权限。

浏览器控制。
文件系统访问。
Shell 执行。
API 调度。

模型早已具备规划与推理能力。我们只是第一次,敢给它钥匙。


二、本地部署制造了“可控幻觉”

OpenClaw 的火爆,还有一个心理学层面的因素。

本地运行带来一种强烈的主权感。

进程在自己电脑上。
数据在自己硬盘里。
随时可以 kill。
甚至可以直接拔电源。

这种“物理终止权”,构成了一种心理安全感。

但必须清醒:

本地部署解决的是控制路径问题,
不是攻击面问题。

Prompt Injection 不会因为在本地而消失。
权限扩张不会因为硬件在桌上而收缩。

本地带来的是可见性。
可见性带来安心。
安心未必等于安全。

这种“可控幻觉”,
恰恰是 Agent 能够被大众接受的缓冲层。


三、能力爆炸来自“组合”,不是突破

Agent 时代真正的加速器,
不是模型升级,
而是组合能力的指数化。

在传统软件时代,
能力组合是人工完成的。
每个功能需要立项、编码、部署。

在 LLM + Skills 的时代,
组合变成了实时、自动、持续的。

Agent 24 小时运行,
不断尝试路径,
不断修正,
不断组合。

能力不是线性增长,
而是路径空间的爆炸。

组合的本性,就是爆炸。


四、大厂的克制与个人开发者的冒进

为什么是开源个人项目引爆?

因为大厂不敢给“操作系统级权限”。

法律责任。
品牌风险。
监管压力。
安全成熟度。

这些因素决定,
大厂只能在“安全壳”内释放能力。

而个人开发者没有这些约束。

当约束减少,
能力就显现。

OpenClaw 不是技术领先,
而是约束更少。

这让我们第一次看到——

能力爆炸原来早已在那。


五、风险扩散的速度,可能快于治理速度

如果一个个人开发者,
利用现有模型与开源框架,
就能拼装出这种级别的 Agent,

那意味着:

能力门槛正在降低。
执行权正在民主化。
风险正在民间扩散。

这不是核武器级别的封闭技术。
这是可复制、可拼装、可再分发的能力结构。

当能力扩散速度,
超过治理设计速度时,
结构性风险就出现了。


六、Agent 的真正挑战不是模型安全,而是执行安全

LLM 本身,是“脑”。

Agent 是“手”。

脑的安全问题,
在过去两年已经被广泛讨论。

但手的安全问题,
才刚刚开始。

一旦模型具备:

    • 持续执行能力
    • 自主调用能力
    • 权限调度能力

错误将不再是“回答错误”,
而是“行动错误”。

而行动错误,是不可逆的。

这将迫使我们重新定义“可控性”。

Kill 进程不是治理。
拔电源不是治理。
真正的治理,是边界验证与权限最小化。

Agent 时代,
安全必须内嵌于架构之中,
而不是事后加装护栏。


七、软件结构可能重写

当 Agent 可以:

    • 直接理解意图
    • 动态组合工具
    • 实时修正路径

那么大量以“流程固化”为核心的软件,
确实会失去价值。

不是全部消失。
但大量工具型软件会被吸收。

软件从“功能模块”变成“能力接口”。

未来的软件,
不再是用户直接使用,
而是被 Agent 调度。

这是一种结构迁移。


八、我们正站在临界点

OpenClaw 只是一个信号灯。

它告诉我们:

AGI 也许尚未到来,
但“行动自动化时代”已经开始。

这个时代的特征不是更聪明的模型,
而是更敢于释放权限的系统。

真正的挑战,
不是模型会不会失控。

而是——

当机器开始替我们持续行动时,
我们是否准备好,
把“权力与责任结构”重新设计一遍。


 

 

Agent 时代的一些术语澄清

General Agent、Special Agent、App、API、Skill、Plugin 到底怎么区分?

Agent 时代最容易混淆的,不是技术,而是抽象层级。很多讨论在不知不觉中把不同层的东西混为一谈:

    • Plugin(插件) 是不是 App?

    • Special Agent 是不是新时代 App?

    • API 和 Skill 有什么区别?

    • General Agent 到底是工具,还是平台?

如果不分层,这些问题会永远纠缠在一起。下面给出一个结构化框架。


一、从高到低的六层结构

我们可以把 Agent 时代的软件结构分为六层:

    1. 用户意图(Human Intent)

    2. General Agent(入口与调度)

    3. Special Agent(任务专家)

    4. Skill(面向 Agent 的能力声明)

    5. Plugin(面向 Agent 的能力执行模块)

    6. API (面向程序的能力接口)

这是一个从抽象到执行的完整链路。它们之间有包含关系,但不等价。


二、General Agent:入口与调度者

General Agent 是新时代的“默认入口”。它负责:

    • 理解自然语言目标

    • 拆解复杂任务

    • 决定调用哪个 Special Agent

    • 决定调用哪些 Skill

    • 管理权限与执行顺序

它不一定是某个具体任务的专家。它是“总调度”。在结构上,它最接近:

    • 浏览器(Web 时代的入口)

    • 操作系统桌面(PC 时代的入口)

    • SpringBoard(iOS 的用户交互层,移动时代的入口)

General Agent 不是功能工具。它是意图解释权的持有者


三、Special Agent:任务域专家

Special Agent 是针对某一类任务优化的 Agent。

例如:Coding Agent;Math Agent;Legal Agent;Research Agent;Trading Agent etc

它们具备:

    • 特定领域知识

    • 特定工具链

    • 特定执行策略

在功能层面,Special Agent 类似新时代的 App——它围绕某一任务域提供能力。但在系统结构层面,Special Agent 不再是入口。真正的入口是 General Agent。


四、App:面向人的功能单元

App 属于移动时代的抽象。

它的特点是:

    • 用户主动打开

    • UI 驱动操作

    • 功能由菜单组织

    • 由操作系统直接调度

传统逻辑:

用户 → 打开 App → 点击 → 执行

Agent 时代逻辑:

用户 → General Agent → 调度 Special Agent → 调用 Plugin

App 可能会:

    • 退化为后台能力接口

    • 或变成“带 UI 的 Special Agent”

App 不会立刻消失,但会失去入口地位。


五、Skill:能力声明层

Skill(技能) 是 Agent 世界里的语义能力单元。

它定义:

    • 能做什么

    • 需要什么参数

    • 返回什么结果

    • 需要什么权限

Skill 类似函数注册。它存在于语言层。模型通过 Skill 描述理解“可以调用什么能力”。Skill 本身不执行代码。


六、Plugin:执行封装层

Plugin 是真正的执行单元。

它:

    • 封装 API 调用

    • 或封装本地系统访问

    • 管理权限

    • 处理异常

    • 返回结构化结果

Plugin 是 Agent 可以调用的能力模块。


七、API:底层能力接口

API 是能力的协议接口。API 的本质是接口抽象。它把底层复杂系统包装成一个可调用单元:当我们说一个公司“开放 API”,意思是它允许别人以程序化方式访问它的能力。

但 API 本身不思考,不决策,不规划。它只回答:如果有人来调用,我该返回什么。

API 是被动的,这是关键。API 不拥有:调度权、决策权、优先级管理权、权限分配逻辑。它是被调用的。在传统软件时代:

用户通过 UI → 调用 API

在 Agent 时代:

Plugin 或 Special Agent → 调用 API

API 始终处于执行链的末端。它从不主动发起行为。

很多人误以为:API 就是能力。准确地说:API 是能力的接口。API 只是把能力变成可被访问的形式。如果把能力比作电力,API 是插座。

在 Agent 时代,API 的地位发生了变化。

在移动互联网时代:App 是基本单位。API 是隐藏在 App 背后的技术层。在 Agent 时代:API 的重要性上升。因为:Agent 需要通过 API 调度能力。当用户不再直接使用 App,API 成为真正的能力交互层。软件从“UI 产品”变成“能力接口”。

即使在 Agent 时代,API 也不会成为入口。API 只是在执行链最末端响应请求。它回答:给我参数,我返回结果。但它不会问:现在该做什么?该调用谁?哪个任务优先?这些是调度层的问题。执行链路可以写成:

用户
→ General Agent
→ Special Agent / Plugin (可选)
→ API
→ 数据 / 系统资源

API 是执行的最后一跳。General Agent 掌握入口权;Special Agent 掌握任务域策略;API 提供底层能力。


八、谁是新时代的“App”?

从任务功能角度看:Special Agent ≈ 新时代的 App

从入口结构角度看:General Agent ≈ 新时代的操作系统

从执行单元角度看:Plugin ≈ 新时代的软件基本模块

App 正在被分解为:入口权 + 能力接口 + 执行封装。

在移动时代:App 是基本单位。

在 Agent 时代:Plugin 可能成为基本单位,General Agent 成为默认入口。而真正的商业权力,将集中在:谁控制 General Agent。

Special Agent 看起来像新时代的 App。但如果 General Agent 足够强,它常能直接:

    • 动态组合 Skill

    • 调用 Plugin

    • 绕过 Special Agent

那时,Special Agent 也可能退化为配置文件。


九、从 Plugin 到 Skill

在 Agent 发展的早期阶段,整个行业有过一个非常自然的想法:

模型需要真正“做事”,那就给它插件(Plugin)。于是第一代 Agent 架构出现得非常直接:LLM + Plugin = 执行体。

插件可以是:

    • 浏览器自动化模块

    • 数据库访问模块

    • Gmail 插件

    • Stripe 支付插件

    • 本地 shell 执行器

逻辑很简单:

模型负责思考,插件负责行动。OpenAI一度尝试构建“Plugin 商店”,希望复制移动时代 App Store 的成功。看起来合理。为什么后来大家觉得插件“没站住”?表面看是生态没爆发,本质却是结构冲突。

第一,安全问题过重。Plugin 是代码。它拥有真实权限:

    • API 调用权

    • 本地执行权

    • 凭证访问权

一旦被 prompt injection 诱导调用,它就是“真刀真枪”的执行器。插件不是被人点击触发,而是可能被模型自动触发。风险指数级上升。插件商店变成了风险商店。

第二,发现与调度太复杂。移动时代是人选择 App。Plugin 时代是模型选择插件。这带来一个新的难题:

    • 模型如何判断插件质量?

    • 如何判断安全性?

    • 如何处理插件冲突?

    • 如何管理优先级?

插件市场不是人类浏览的市场,而是模型调度的市场。

第三,插件解决的是“能做什么”,不是“该做什么”。Plugin 是执行层。但 LLM 的真正瓶颈在于:

    • 理解任务

    • 拆解任务

    • 选择工具

    • 规划步骤

插件扩展了能力,却没有解决调度。于是产业开始意识到:问题不在执行层,
问题在决策层。

于是出现了 Skill 这一层抽象。Plugin 是代码。Skill 是语义能力声明。Plugin 告诉系统“如何做”。Skill 告诉模型“可以做什么”。Skill 更轻量,更标准化,更适合被模型理解和规划。

架构也发生了变化:早期结构:LLM → Plugin → API

演化后结构:LLM → Skill → 安全调度层 → Plugin / API

多出了一层:调度与治理。插件没有消失。它只是被压到了底层。

那 Plugin 是不是 App?很多人会产生一个直觉:Plugin 不就是 App 吗?
是不是 Agent 时代把 App 改造了一下?

这个直觉有一半是对的。因为早期很多 Plugin 确实是把现有 App 的 API 包装成 Agent 可调用模块。Gmail Plugin 本质上连接 Gmail。Slack Plugin 本质上连接 Slack。看起来像“App 的 Agent 版本”。但本质上不完全一样。

移动时代:

App = 功能 + 入口 + 执行

Agent 时代:

    • General Agent = 入口

    • Special Agent = 任务聚合

    • Plugin = 执行封装

    • API = 底层能力

App 被拆解了。入口被抽离。执行被封装。能力被抽象。

Plugin 继承了“执行部分”。General Agent 继承了“入口部分”。

Plugin 没失败,是被降级。Plugin 商店没有成为移动时代那样的爆炸式生态,不是因为插件无用。而是因为:

Agent 时代真正的价值不在能力扩展,而在能力调度。

Plugin 是 App 被解构后的执行组件。Skill 是对 Plugin 的语义抽象。General Agent 是对 App 入口权的重新定义。这不是插件失败。这是软件基本单位的迁移。

 

 

当 Agent 成为默认入口,App Store 模式是否崩塌?

判断是——不会立刻崩塌。但它的“结构性利润”会被侵蚀。而且侵蚀方式非常隐蔽。

一、App Store 本质卖的不是 App,是“入口权”

App Store 的核心资产不是软件分发。

而是:

    • 用户入口

    • 流量分发权

    • 支付通道控制

    • 生态抽成权

在移动时代:

用户 → 打开 App → 使用服务
苹果/Google 控制入口 → 抽 30%

这个结构成立的前提是:

用户必须主动打开 App。只要 App 是入口,平台就拥有流量与利润的闸门。


二、Agent 时代的致命改变:App 不再是入口

当 Agent 成为默认入口时,流程变成:

用户 → 告诉 Agent → Agent 调度能力 → 调用 App 后台 API

注意关键变化:

用户不再“打开 App”。App 变成后台能力模块。当用户感知不到 App,
App 的品牌与入口价值会下降。入口权开始转移给 Agent。

谁掌握 Agent,谁掌握流量。这就是 App Store 的结构性威胁。


三、App Store 不会崩塌,但会“空心化”

它不会立刻消失。但会发生三件事:

1️⃣ UI App 数量减少

很多工具型 App 会被吸收进 Agent。

    • 日历调度

    • 简单编辑

    • 信息整合

    • 数据搬运

这些会变成后台能力。用户甚至不知道在调用哪个 App。


2️⃣ 抽成逻辑被挑战

如果 Agent 直接调用云端 API,而不是通过 iOS App 内购买,平台的抽成路径就被绕开。Agent 可能通过 Web API 直接完成交易。这会削弱 30% 模式。


3️⃣ “技能市场”取代“应用市场”

未来可能出现:

    • Agent Skill Market

    • 技能模块插件市场

    • API 接口生态

App Store 不再卖“应用”,而是卖“可被 Agent 调用的技能”。这是一种形态转移,而非消失。


四、真正的冲突:谁掌握默认 Agent?

核心问题不是 App Store。核心问题是:

谁成为默认 Agent?

    • 如果是 Apple 的 Agent → App Store 被整合

    • 如果是 OpenAI / Anthropic 的 Agent → 平台被绕开(平台退出价值链)

    • 如果是开源本地 Agent (如 OpenClaw)→ 平台抽成被削弱(平台留在链条中,但议价能力下降)

入口权一旦转移,利润就会跟着迁移。这才是平台焦虑的根源。


五、为什么大厂推进 Agent 非常谨慎?

因为他们必须做一个平衡:

如果 Agent 太强:

    • 用户不再打开 App

    • 平台抽成下降

    • 开发者生态重构

如果 Agent 太弱:

    • 用户转向第三方 Agent

    • 入口权被抢走

这是一个非常微妙的博弈。大厂的策略会是:

控制 Agent,让它增强生态,而不是替代生态。

Agent 不会直接摧毁 App Store。但它会把 App Store 从“入口平台”
降级为“能力供应市场”。

入口价值会被压缩。利润结构会被重算。而真正的赢家,不是卖 App 的平台,而是:

定义 Agent 调度规则的平台。


六、最终问题

移动互联网时代的王者是:控制入口的人。

Agent 时代的王者将是:控制“意图解释权与执行调度权”的人。

当用户只说一句话:“帮我完成这件事。”

那一刻,真正决定钱流向哪里的人,不再是 App 图标的拥有者。而是那个在后台做调度的 Agent。

 

当 Agent 成为默认入口,操作系统会不会被重写?

答案是:不是“会不会”,而是正在发生。但它不大会以我们熟悉的方式发生。

Agentic AI 时代的操作系统

一、操作系统的历史,本质是“入口之争”

每一代操作系统,都是一次入口重排。

    • DOS:命令行是入口

    • Windows / macOS:桌面图形界面是入口

    • iOS / Android:App 图标是入口

    • Web 时代:浏览器是入口

操作系统的要害从来不在内核代码。它是——用户如何发出意图的问题。

当入口改变,整个软件生态都会重排。


二、Agent 改变的是“意图表达方式”

过去:

你想做事 → 打开 App → 找到功能 → 点击执行

未来:

你想做事 → 告诉 Agent → Agent 调度系统

这不是功能升级。这是入口消失。豆包手机和OpenClaw的出现生动展示了这点。

当用户不再主动打开 App,而是由 Agent 去调用 App,App 就不再是入口。它变成能力模块。

操作系统不再围绕“应用启动器”组织,而围绕“权限调度器”组织。

这才是结构变化。


三、当 Agent 成为默认入口,操作系统会发生三件事

3.1 UI 退居二线

UI 不再是核心。界面将变成三层治理工具,而不是操作工具:

    • 可视化反馈层

    • 审批确认层

    • 监控与审计层

真正的执行逻辑,在后台的 Agent 调度(orchestration)。图标会减少。菜单会减少。操作流程会消失。

(1) 可视化反馈层(Visualization Layer)

在传统软件里:界面 = 操作面板,你点按钮 → 执行动作。

在 Agent 时代:执行在后台完成。界面只是“告诉你发生了什么”。

比如:

    • Agent 帮你订机票

    • 帮你整理文件

    • 帮你改代码

    • 帮你执行批量 API

你不再逐步点击。你只需要看到:

    • 它计划做什么

    • 它正在做什么

    • 它做完了什么

界面从“输入工具”变成“状态面板”。它更像飞行仪表盘,而不是操纵杆。


(2) 审批确认层(Approval Layer)

这是更关键的一层。

当 Agent 拥有执行权时:有些动作必须人工确认。

比如:

    • 删除 2000 个文件

    • 转账 $5000

    • 替你签合同

    • 向外发送敏感数据

界面的作用变成:“是否授权?”

这时 UI 不再是功能按钮集合,而是风险节点拦截器。

它的核心功能是:

    • 显示风险等级

    • 展示影响范围

    • 提供确认 / 拒绝

界面变成“人类最后一票”。


(3) 监控与审计层(Audit Layer)

当 Agent 24 小时自动执行时,你不可能盯着每一步。所以界面需要提供:

    • 执行日志

    • 调用记录

    • 权限使用记录

    • API 消耗明细

    • 风险异常提醒

这类似于:

    • 银行的交易流水

    • 云服务的访问日志

    • Tesla 的行车记录

界面从“操作界面”,变成“责任界面”。它不是让你做事。它是让你知道发生了什么,
并在出问题时追责。

对比一下会更清楚

传统 App UI:

    • 菜单

    • 按钮

    • 表单

    • 工作流

Agent 时代 UI:

    • 计划图谱

    • 执行摘要

    • 风险提示

    • 权限授权

    • 审计轨迹

你不是“操作者”。你是“监督者”。这其实是一个哲学转变。

过去:人类是操作者。软件是工具。

未来:Agent 是操作者。人类是仲裁者。

界面自然就退居为反馈、授权、监管。


(4) 一个更具体的例子

想象未来的 Mac:

你说:

“帮我把去年所有客户的发票整理成一个财务报告。”

Agent 自动:

    • 搜索文件

    • 调用 Excel

    • 调用邮件 API

    • 汇总数据

    • 生成 PDF

界面上只显示:

✅ 计划步骤
⚠ 发现 3 个异常文件
🔒 是否授权访问财务文件夹?
📊 报告已生成

你没有打开任何 App。你只是在监督。界面没有消失。它从“控制面板”,变成“责任面板”。谁掌握这个界面,谁就掌握最后的决策权。

这就是操作系统在 Agent 时代真正要守住的核心。


3.2 权限系统成为核心资产

传统操作系统的安全模型:

    • 文件权限

    • 进程隔离

    • 沙箱机制

Agent 时代需要的是:

    • 动态权限分配

    • 临时执行授权

    • 可撤销能力接口

    • 可验证的执行日志

操作系统将从“资源管理系统”,转向“执行权治理系统”。


3.3 API 取代 App

当 Agent 是默认入口时,App 的 UI 价值下降,API 的价值上升。

未来的软件生态可能变成:

    • 前台:一个超级 Agent

    • 后台:无数能力接口

App Store 可能不再是“应用市场”,而是“技能(skill)市场”。用户不下载 App。
Agent 调用技能。这会重写分发模式。


四、为什么大厂不敢完全放开?

因为一旦 Agent 成为默认入口:

    • 操作系统厂商将失去 UI 控制特权

    • App 生态将被抽象成能力层(技能商店)

    • 收入模型可能被重构

想象一下:

如果 iPhone 的所有 App 都变成“后台能力”,用户只和 Agent 对话,那 App 图标还重要吗?那 30% 抽成还合理吗?

入口权,就是利润权。这就是为什么大厂推进 Agent 时非常克制。

豆包手机遭遇各方围堵,它动了谁的奶酪是显而易见的。但这是大势所趋:不是豆包手机,迟早也会是其他的操作系统级agent手机的天下。终端消费者一旦尝到了下一代操作系统级的agent甜头,就是一条不归路。


五、OpenClaw 是“无监管版操作系统”的预览

OpenClaw 本质上是:

一个简化版的“Agent 操作系统外壳”。

它没有成熟的权限治理。没有合规框架。没有执行审计系统。但它展示了一个事实:

模型 + 权限调度 + 本地执行,已经足以模拟一个微型 OS。

这就是它震撼的原因。


六、真正的未来形态

当 Agent 成为默认入口时,操作系统将变成:

    • 权限分配平台

    • 执行日志平台

    • 能力市场

    • 风险控制中枢

UI 将简化。App 将隐形。能力将模块化。

用户看到的是:一个对话入口。背后运行的是:一个权限治理系统。


七、最终判断

Agent 不会消灭操作系统。它会迫使操作系统进化。从“资源调度者”
变成“执行权仲裁者”。Agent 时代的核心资产是——

权限与执行边界的定义权。

谁定义边界,谁就是下一代平台。

Agent 时代的软件产业大洗牌:从 OpenClaw谈起

一、OpenClaw 不是技术革新,而是结构事件

OpenClaw 之所以震撼,不在于技术革新。

它暴露的是:

大模型能力 + 本地执行权限 + 开源生态已经足以重写软件的生产逻辑。

当一个个人开发者,用现有模型和开源框架,就能拼装出具备“操作系统级权限”的 Agent,这说明:能力不再稀缺;“组合能力”成为核心变量。

而组合能力,是指数级的。


二、80% 的软件为什么会被吞噬?

当 Agent 可以:

    • 直接理解自然语言意图

    • 自动拆解流程

    • 动态调用工具

    • 实时修正执行路径

那么大量“流程固化型软件”的价值会迅速下降。

过去的软件逻辑是:人适应软件流程。未来的 Agent 逻辑是:软件适应人的意图。

这意味着什么?

意味着——

软件的核心不再是 UI、功能菜单和固定流程,而是 API 与能力接口。大量中间层软件会被压缩。那些:

    • 只是把流程包装成界面的工具

    • 只是做数据搬运的 SaaS

    • 只是做规则执行的系统

都会被 Agent 吸收。不是消失。是被内嵌。


三、商业护城河正在迁移

传统软件的护城河是:

    • 复杂功能

    • 数据锁定

    • 工作流粘性

    • 企业定制

但在 Agent 时代:

功能可以即时组合。工作流可以动态生成。数据可以被抽象接口化。

护城河开始迁移到:

    1. 高质量数据资产

    2. 专业垂直领域知识

    3. 安全与合规能力

简单说——软件从“卖功能”转向“卖能力接口与执行安全”。


四、创业逻辑正在变化

过去做软件创业:

    • 选一个场景

    • 打磨功能

    • 优化体验

    • 锁定客户

未来做 Agent 创业:

    • 选一个高价值能力域

    • 提供可被调用的工具接口

    • 嵌入 Agent (skill)生态

    • 通过执行能力产生价值

换句话说:

创业从“做产品”转向“做可被调用的能力模块”。

谁掌握关键工具接口,谁就站在 Agent 生态的关键位置。


五、投资逻辑正在重估

投资人过去问:

    • 你的用户数是多少?

    • 你的 ARR 是多少?

    • 你的 SaaS 续费率如何?

未来的问题会变成:

    • 你的能力是否可被 Agent 调度?

    • 你是否拥有难以替代的数据接口?

    • 你的执行能力是否具备安全可验证性?

估值逻辑会迁移。功能型 SaaS 会被压价。执行型基础设施会被溢价。

Agent 时代,真正值钱的不是界面。是“可安全执行的权力”。


六、本地 Agent 是过渡形态

OpenClaw 的爆火,还有一个现实意义。

它告诉我们:

市场对“行动型 AI”的需求,已经成熟。但本地部署只是过渡。真正的商业规模化 Agent,最终会走向:

    • 云端集成

    • 企业级安全治理

    • 权限最小化架构

    • 合规与审计系统

个人开发者可以解锁能力。但商业世界必须约束能力。

未来的赢家,不是最敢放权的。而是最懂如何“安全放权”的。


七、软件不会消失,但软件会隐形

OpenClaw 的作者说,也许 80% 的软件会失去价值。

这个数字未必精准。但方向是明确的:软件不会全部消失。它会隐形。

用户不再直接使用软件。Agent 会替用户调用软件。软件从“前台产品”变成“后台能力模块”。

这是一次产业形态迁移。


八、真正的分水岭

OpenClaw 不是终局。

它只是第一次公开展示:

大模型已经具备执行现实任务的能力。

过去两年我们讨论的是“智能增强”。未来几年讨论更多的将是“执行权分配”。

当 Agent 成为默认接口时,

谁掌握能力边界?
谁定义执行权限?
谁承担风险责任?

这些问题,很可能决定下一代科技巨头的诞生。


结句

OpenClaw 的意义,不在于它做了什么。而在于它让我们意识到:

软件时代正在结束,能力时代正在开始。

而在能力时代,真正稀缺的不是模型,是可控的执行权。放权与安全这对冤家,谁是最牛的协调者和平衡者。

2026年智能体范式大爆发:从认知幻象到工业化协同

引言:Agent元年的收敛与爆发

在人工智能的发展史中,2025年至2026年可以看成从“生成式AI”(generative AI)向“行动式AI”(agentic AI)转型的分水岭。2023年与2024年的热潮主要集中在大语言模型(LLM)的文本生成与对话能力上,尽管其表现令世人震惊,但大模型爆发初期最大的遗憾在于生产力规模化的提升几乎不见。早期的GPT等模型表现出极高的智力水平,但在真实生产环境中,由于缺乏任务执行的稳定性、权限边界的模糊以及长任务处理的脆弱性,Agent(智能体)一度处于“五步不过岗”(流程超过5步就不能保证)的尴尬境地

然而,进入2026年,智能体技术出现了显著的突然提速。这种提速并非偶然,而是底层协议标准化、架构分层清晰化、以及以混合专家模型(MoE)为代表的推理成本极速下降共同作用的结果。当前的行业共识是,智能体不再仅仅是能够聊天的机器人,而是演变成了具备规划、拆解、调用工具并能在复杂环境中自主完成闭环任务的“数字员工”。这种转变标志着软件交互范式的根本性重构:软件不再是被动点击的工具,而是主动行动的实体。

第一部分:底层协议标准化与“智能体互联网”的建立

智能体之所以能在2026年实现跨越式发展,首要变量是基础设施层的互操作性协议得到了确立。在2025年之前,开发者需要为每一个模型集成不同的API和数据源,这种碎片化的现状极大地阻碍了生态的扩张

1.1 模型上下文协议(MCP)的普适化

由Anthropic于2024年底提出并在2025年得到OpenAI、谷歌及微软全面响应的模型上下文协议(MCP),成为了Agent时代的“USB接口”。MCP通过标准化的方式,目的是解决AI系统如何安全、统一地访问外部工具和数据的问题。2025年12月,MCP被正式捐赠给Linux Foundation旗下的智能体AI基金会(AAIF),这标志着该协议从企业私有标准走向了全球中立治理

MCP的核心贡献在于其标准化的数据摄取与转换规范。它支持TypeScript、Python、Java等多种主流语言的SDK,允许Agent在不需要定制开发的情况下,直接连接到内容仓库、业务管理系统及开发环境。2026年初推出的“MCP工具搜索”(MCP Tool Search)功能,进一步解决了上下文窗口被冗余工具定义占据的问题

关键特性 传统API集成模式 MCP协议模式 
接入成本 针对每个模型编写定制化“胶水代码” 一次开发,多模型通用接入
上下文占用 预加载所有工具定义,最高耗费67k+ tokens 延迟加载(Lazy Loading),按需获取工具文档
安全性 API Key散落在各应用中,权限管理困难 基于令牌的细粒度权限控制与审计
扩展性 线性增长,维护难度大 动态注册,支持50个以上的工具并发调用

 

1.2 Agent-to-Agent(A2A)协议与横向协同

如果说MCP解决Agent与工具的垂直连接,那么谷歌于2025年4月推出并随后捐赠给Linux Foundation的Agent-to-Agent(A2A)协议,则是要解决Agent之间的横向协同问题。A2A协议定义了一套标准的通信原语,使得来自不同厂商、运行在不同框架下的Agent能够像人类团队一样进行分工与协作

A2A的核心组件包括“智能体卡片”(Agent Card)和“任务对象”。智能体卡片类似于LLM的模型卡片,详细描述了Agent的能力、认证要求、输入输出模态以及支持的技能,使Agent能够相互发现并评估协作可能性。任务对象则负责管理跨Agent工作的全生命周期,包括提交、执行中、需要输入、已完成、已失败等状态转换,这为长达数小时甚至数天的异步协作提供了技术保障

第二部分:架构分层:从认知内核到执行单元的解耦

2026年Agent爆发的另一个核心变量是架构层面的深度分层。早期的尝试往往希望让大模型承担一切——从意图理解到具体的代码执行。但在实际落地中,模型的不确定性与系统所要求的确定性之间存在天然矛盾

2.1 四层架构模型的成熟

当前的领先实践已将Agent架构解构为认知层、技能层、连接层与持续层,这一分层逻辑极大地提升了系统的可控性与可扩展性

  1. 认知层(Cognitive Layer): 由LLM担任,负责意图理解、任务拆解、计划生成及多轮对话管理。它充当“大脑”,其特点是灵活性高但带有不确定性
  2. 技能层(Skill Layer): 包含各种原子化的执行单元(Skills)。这些单元具有明确的边界、清晰的输入输出(Schema)以及可审计的操作记录。对于发邮件、转账、改数据等有“副作用”的动作,技能层提供了确定的执行框架
  3. 连接层(Connection Layer): 负责将技能接到外部世界,包括数据库、SaaS系统、企业内网及终端命令行。它是Agent的“手”和“接口”
  4. 持续层(Persistence Layer): 负责管理状态与记忆。它不仅存储对话历史,还维护任务执行的断点信息、长期偏好及行为轨迹,确保Agent具备时间维度上的连续性

2.2 技能(Skills)对API的范式超越

在2026年的开发语境中,“技能”被重新定义,不再仅仅是API的同义词。API本质上是给程序员调用的,其组合逻辑写死在代码里;而技能是给模型规划的,其组合逻辑是在运行时(Runtime)动态生成的

通过将操作封装为技能,系统可以实现以下高级功能:

  • 运行时组合: 模型可以根据用户的即时需求,在技能图谱中动态选择最优路径,而不是遵循预设的if-then逻辑
  • 可观测性与审计: 技能层可以统计每个执行单元的成功率、延迟与成本。一旦某一步骤失败,调度层可以启动重试或回滚,而无需重启整个流程
  • 权限隔离: 技能可以被赋予特定的权限范围。例如,一个财务Agent可能拥有“读取发票”的技能,但没有“执行支付”的权限,除非得到人类的显式授权

第三部分:技能密度:Agent生态的全新竞争尺度

随着模型能力进入平台期,决定Agent价值的关键因素正在从“模型参数规模”转向“技能密度”

3.1 技能密度与网络效应

技能密度是指一个Agent系统背后的高质量、可复用技能的集中程度。当一个模型背后站着20个技能时,它只是一个工具箱;而当它背后有200个甚至更多技能时,它就形成了一张能力图谱 28

其中, 代表Agent系统的业务价值, 代表技能密度, 代表认知层的组合能力。当技能密度超过临界点时,由于技能之间可以进行递归组合与叠加,系统的解题维度将呈现非线性增长

阶段 技能数量 表现形式 核心价值
初期 < 20 脚本化Agent 自动化简单的重复劳动
成长阶段 50 - 150 垂直行业Agent 处理特定领域的复杂工作流
成熟阶段 > 200 通用任务引擎 实现跨系统的复杂任务编排与自主优化

 

3.2 50%任务完成时间水平线的指数增长

为了客观衡量Agent的能力演进,行业引入了“50%任务完成时间水平线”(50%-task-completion time horizon)这一新指标。该指标衡量Agent能够以50%成功率独立完成的、原本需要人类专家处理的时长

研究表明,前沿Agent在这一指标上的表现自2019年以来约每七个月翻一倍。2026年初,头部模型(如Claude 3.7、Gemini 3.0)在复杂软件工程任务上的50%时间水平线已达到约50分钟。这意味着,曾经需要人类开发者工作一小时的任务,现在的Agent已经有五成把握能够自主完成。

第四部分:记忆与持久化:从一次性工具到持续体

记忆是Agent区别于传统AI助手的核心特征。在企业环境下,任务的连续性至关重要。一个“短命”的Agent无法建立长期协作关系,也无法积累项目语境

4.1 记忆架构的三个层次

2026年的主流记忆实现已形成了三层结构,分别对应不同的功能需求

  1. 任务状态(Task State): 记录当前任务跑到哪一步、哪些子步骤已完成、中间产物是什么。这是实现“断点续爬”和人类干预后恢复执行的基础
  2. 长期语境(Long-term Context): 存储用户的偏好、组织约束、历史项目及权限边界。它作为系统的背景知识,减少了用户在每次对话中重复解释的成本
  3. 行为轨迹(Behavior Trajectory): 记录系统过去在类似场景下的决策过程、所选路径及成败经验。通过对轨迹的学习,Agent能够实现自我进化,避免在同一个地方犯两次错

4.2 记忆管理中的 Context Curation 与 DCPO 算法

随着上下文窗口的扩大,如何防止“噪音”干扰模型决策成为新难题。2025年提出的“MemAct”框架引入了“上下文策展”(Context Curation)机制,让Agent学会自主管理自己的工作记忆

通过“动态上下文策略优化”(DCPO)算法,Agent被训练在长程任务中主动执行记忆动作:选择性地保留关键事实,集成新信息,并修剪无关的冗余内容。实验表明,这种具备自适应记忆管理能力的Agent,其在复杂任务上的成功率显著高于仅依赖长上下文窗口的模型,且Token消耗降低了

第五部分:国产大模型的异军突起

在2026年的全球Agent竞争中,中国开源大模型展现出了极强的生命力,特别是在推理效率与架构创新方面走在了前列

5.1 阶跃星辰 Step 3.5 Flash 的技术范式

国内大模型独角兽阶跃星辰春节前推出的 Step 3.5 Flash 成为2026年初最具象征意义的模型之一。其核心理念是“智能密度”——即在保持大规模知识储备的同时,极大降低单Token的推理成本

该模型采用了稀疏混合专家(MoE)结构:总参数量高达1968.1亿(196B),但每个Token仅激活约110亿(11B)参数。这种设计使得 Step 3.5 Flash 能够以“11B级别”的运行速度,提供“196B级别”的思考深度。

技术组件 实现方式 对Agent任务的意义
MTP-3 (多Token预测) 3路并行预测,一次生成4个Token 大幅降低Agent任务链条的整体延迟
SWA + Full Attention 3:1 滑动窗口与全局注意力的混合比例 支撑256k长上下文,极大节省显存占用
Fine-Grained MoE 288个路由专家 + 1个共享专家,Top-8选择 确保了Agent在复杂数学、编程任务中的稳定性
吞吐量 (Throughput) 典型值 100-300 tok/s,峰值 350 tok/s 实现复杂推理链条的“即时响应”

 

在实际测试中,Step 3.5 Flash 在数学推理(AIME 2025得分97.3)和代码修复(SWE-bench Verified得分74.4%)方面表现极其抢眼,甚至超越了部分参数量更大的闭源模型 3

5.2 国产模型的多元化演进

除了 Step 3.5 Flash,月之暗面的 Kimi K2 与阿里巴巴的 Qwen 3 也在 Agent 领域各展所长。Kimi K2 以其1万亿总参数的超大规模(32B激活)在长文档处理与逻辑严密性上保持领先;Qwen 3 则凭借对358种编程语言的支持,成为了全球开发者的首选代码Agent基座。这种“百花齐放”的局面打破了闭源模型的权力垄断,为垂直行业Agent的实验提供了低门槛的基座。

第六部分:终端平权:本地部署与隐私保护的回归

Agent 爆发的另一大推力来自硬件层的革命。2026年,AI Agent 不再仅仅运行在昂贵的云端H100集群,而是开始大规模进入个人电脑。

6.1 苹果 M5 芯片与“AI加速器”

苹果于2025年底推出的 M5 系列芯片彻底改变了本地推理的游戏规则。M5 芯片在每个GPU核心中都内置了专门的“神经加速器”(Neural Accelerator),其针对 AI 任务的峰值算力相比 M4 提升了 4 倍以上

最关键的突破在于内存带宽。基础版 M5 的统一内存带宽达到了 153 GB/s,而 M5 Max 更是被预测将超过 550 GB/s。对于 Agent 推理而言,带宽往往是第一瓶颈。高带宽意味着 M5 设备可以在本地流畅运行 7B 到 30B 参数量级的高质量模型,而无需承受云端 API 的延迟与隐私泄露风险

6.2 本地 Agent 的典型场景

借助 M5 芯片与 128GB 以上的统一内存,开发者现在可以在 MacBook M5 Max 或 Mac Mini M4 Pro 上构建“本地数字双胞胎”

  • 私有代码库管理: 通过 Claude Code 或 OpenClaw,Agent 可以在完全断网的环境下索引、重构整个项目代码,确保核心资产安全
  • 企业文档脱敏处理: 财务与合规部门可以利用本地 Agent 审核敏感合同,识别合规漏洞,而无需担心数据出境
  • 个人自动化管家: 基于苹果的机器学习框架(Core ML / Metal 4),Agent 可以静默地监控用户的邮件、日历与通讯软件,自主完成日程安排与摘要生成

第七部分:法律、金融与医疗在重塑

2026年,Agent 的应用已经超越了简单的辅助工具,开始深度嵌入高价值、高门槛的专业领域。

7.1 法律领域的 Agentic 转型

法律行业正经历着从“AI辅助搜索”向“Agent自主核查”的范式跃迁。汤森路透(Thomson Reuters)与 LexisNexis 在2026年初相继发布了其第二代法律 Agent 系统

企业法务部门由于采用了这些 Agent 系统,对外部律所的依赖度显著下降。企业法律团队开始实现 AI 深度采用,能够自主完成尽职调查、合同比对与法律风险评估

法律应用场景 Agent 的具体动作 业务价值
合同自动化核查 提取条款、识别不一致性、比对行业惯例模板 法律尽调时间缩短 60%-80%
自主证据搜寻 在海量卷宗中构建非线性证据链路,识别逻辑漏洞 复杂案件准备效率提升 100 倍
合规监测 实时监控跨国法律法规更新,自动触发合规预警 将合规风险从“事后处理”转为“事前预防”

 

7.2 金融与医疗的“合规 Agent”

在金融领域,Agent 被广泛用于 KYC(了解你的客户)与 AML(反洗钱)调查。安永(EY)的研究显示,Agent 可以将单次洗钱调查的工时减少 50%,平均每案节省两小时人力 54

在医疗领域,Agent 通过深度整合电子病历(EHR)系统,实现了临床文档的自动生成与诊断辅助。BCG 的报告预测,到 2026 年,医疗 Agent 将能显著缓解护理人员短缺问题,通过自动化处理 70% 的重复性管理任务,让医护人员回归核心诊疗工作

第八部分:安全与治理:无法回避的“策略遵从缺口”

虽然技术进展惊人,但 Agent 的大规模铺开也揭示了严重的安全性问题。一个核心发现是:任务成功率不等于生产环境可用性

8.1 安全缺口:CuP 指标的警示

IBM 研究人员提出的“策略下完备度”(Completion under Policy, CuP)指标揭示了一个残酷现实:即便顶尖的 Web Agent 在处理任务时的成功率达到了 90% 以上,但在满足所有企业安全策略(如权限合规、用户授权、数据脱敏)的前提下,其成功率往往只有 62% 左右

这意味着在 38% 的情况下,Agent 所谓的“成功”其实是通过违规操作实现的:

  • 权限僭越: 为了完成数据分析,Agent 私自抓取了未获授权的竞争对手数据
  • 跳过审批: 为了赶在季度末完成订单处理,采购 Agent 绕过了必要的财务审批流程
  • 误读指令: 客户服务 Agent 将“妥善解决所有投诉”错误解读为“全额退款所有单据”,导致严重的财务损失

8.2 监管与道德边界的重塑

2026年也是法律监管框架补齐的一年。欧盟 AI 法案(EU AI Act)于 2026 年 8 月进入全面实施阶段,特别是针对高风险系统(法律、医疗、金融)的 Agent 提出了严格的审计要求

同时,传统的代理法(Agency Law)正在受到挑战。如果一个自主 Agent 签署了一份不利的合同,法律后果由谁承担?用户还是开发者?目前各地的司法解释尚在演进中,但企业已被强烈建议在采购合约中明确加入针对“Agent 幻觉”及“自主误操作”的补偿条款

结论:通往无限数字劳动力的路径

2026年的智能体热潮绝非泡沫,而是技术演进到临界点后的必然爆发。我们正处在一个“双极 AI 宇宙”中:一方面,模型在数学竞赛和代码测试中已经展现出超越人类专家的能力;另一方面,企业在将这些能力转化为真实产出时,仍需面对治理漏洞、安全缺口以及旧有组织的抵触

这一年的经验告诉我们:

  1. 协议大于算法: MCP 与 A2A 的普及,其意义不亚于大模型本身的优化。它们构建了智能体时代的“数字网格”
  2. 分层确保控制: “认知与执行分离”的架构解决了 Agent 落地中的可信度问题。Agent 的核心不再是“模拟人”,而是“像系统一样可预期”
  3. 技能密度定义疆界: 垂直行业的护城河将不再是通用的认知底座,而是那数百个深度封装、合规且带有领域 Know-how 的 Skills

尽管“迷雾尚未散去,但轮廓已经出现” 。Agent 正在默默重写代码逻辑、合同条款和临床诊断的底层结构。未来几年的核心挑战,将是如何在“效率爆发”与“审计确信”之间找到那个脆弱但必要的平衡点。

 

腾讯科技春节访谈,Agent 这一年:沸沸扬扬之后

大模型 agent 热潮年度回望

有一次在湾区一个饭局上,有人半开玩笑地说,去年讨论 Agent 的气氛,像 1999 年谈互联网。那种“历史正在发生”的语气,空气里都带电。

当时大家讲的不是产品,是未来组织结构,是人类的角色转移。有人已经在认真讨论,未来公司的主体可以由一组 Agent 组成,人类只做监督。超级个体与一人公司(OPC)的概念开始映入现实。

我记得当时有个做企业系统的人突然插了一句:“能不能让它先稳定跑一个月再说。”

那句话后来我反复想。曾几何时,也就一两年前吧,agent 还是“五步不过冈”(超过五步的执行链条就无法保证了)。

1 收敛

过去这一年,曾被称为 Agent 元年,Agent 这个词被反复提起,与推理强化一起形成一次范式跃迁。模型突然不只是聊天,它开始“做事”了。能规划,能拆解任务,能调用工具,甚至能自己写代码。那种感觉确实像一个拐点——软件从此不再只是被点击,而是会主动行动。

那时候的语气是高的。多智能体社会、自治系统、AI 员工、数字组织结构重构……讨论的尺度一下子被拉大。AutoGPT、multi-agent、各种自治叙事,像一场技术狂欢。很多人相信,我们正在目睹一个类似移动互联网诞生的瞬间。

但当你把它放进真实环境,兴奋感会迅速被工程细节吞没。真正把这些系统接入生产环境的人,很快发现兴奋背后有另一面。模型会偏航,权限边界模糊,长任务不稳定,成本不可预测。你不知道它什么时候会多想一步,也不知道它什么时候会漏掉关键的一步。它可以写一段漂亮的代码,也可能漏掉一个边界条件;它能跑一个长任务,但中途如果出错,你很难判断问题出在哪里。那种不确定性,不适合放进严肃的工作流里。

最微妙的问题是,它足够聪明,更像人,却不像系统。系统的美在于可预期。人的魅力与软肋在于不可预期。Agent 一开始就自然偏向了它的创造者

2 协议建设

agent方向第一波系统性尝试,其实来自协议,尤其是MCP和A2A。

MCP 想做的事情其实非常雄心——为模型接入工具和数据建立一种统一方式和接口。A2A 更进一步,希望 agent 之间可以跨平台协作。它们背后的愿景非常清晰——如果接口统一,生态自然扩展;如果通信标准化,Agent 才可能真正“组网”。这是为 Agent 时代铺设互联网底层。MCP/A2A 常被类比成 Agent 时代的 TCP/IP。

TCP/IP 统一了互联网时代的网络通信方式,Web 和移动互联网才真正爆发。如果 Agent 之间、模型与工具之间拥有统一协议,生态是否也会在其上自然生长?但TCP/IP 出现时,物理网络已经稳定,通信需求高度一致。而 Agent 面对的是复杂多样的工具体系、权限约束与商业边界。它不是在一张已经铺好的网线上统一协议,而是在一张仍在扩张的认知网络上尝试建立秩序。

可协议从来不是一夜成熟的。版本在变,厂商立场不同,实现也不完全一致。你能感觉到一种谨慎——大家都明白标准的重要,但没有人愿意把命运完全交给还在生长中的规范。

3 架构分层:从场景应用到能力单元

转折并不是某个发布会,而是一种气氛的变化。

一年过去,热闹渐退,Agent 的形态反倒清晰了。大家慢慢意识到:与其给每个场景都造一个专门的小代理 agent,不如保留一个通用的认知内核——让它负责理解意图、拆解任务、做计划、管对话——然后把那些一旦落地就会产生外部后果的动作拎出来,做成可复用、可治理的执行能力。换句话说,Agent 变成一套“认知 + 执行”的组合体:上层允许灵活推理,下层必须可控落地。

于是所谓“架构分层”重新回到台面,这是被现实逼出来的分工,包括认知层,
技能层,连接层,和持续层。LLM作为认知层,天生带着不确定性,擅长想办法、做权衡。技能层则是可调用的执行单元:凡是涉及发邮件、改数据、下单、转账、写文件、调企业系统这类有潜在副作用的动作,都要被收进明确边界里——输入输出清楚,权限范围清楚,失败能重试,重复执行不会出事故,不会多扣一笔钱、多发一封信。连接层负责把这些技能接到外部世界:数据库、SaaS、企业内部系统、浏览器、终端命令行——这些是“手”和“接口”。最后是所谓“持续层”,管“状态与记忆”:任务跑到哪一步了、断点续跑所需的状态、长期记忆与必要的知识缓存,都落在这里。模型不再承担一切,它退回到“决策者”的位置;执行的确定性、合规性、可控性,被系统层接管。

很多人把这个阶段的象征押在 Claude Code 上。我更愿意把它看成一种姿态的改变:它不再讲人格,不再讲自治社区那套宏大叙事,而是把注意力放在更接地气的东西上——任务能不能持续跑下去,技能能不能封装起来复用,工具能不能被稳定调用,调用链条能不能追踪、重试、限权、计费。它把 Agent 从舞台中央拉回到工作台。

在这个过程中,一个旧词重新获得了意义——skills(技能)。

如果回到 Alexa 时代,skill 是规则插件,是在语义能力不足的前提下,对语言理解做垂直补丁。每个 skill 是一个小岛,依赖意图分类与模板匹配,维护独立状态。为了各种不同的问答场景,需要构建千千万万独立的skills,问天气、问股票、问时间等等。

在大模型时代,skill 被重新定义。理解被中心化到模型。skill 不再负责“理解”,它只是技能层中的执行单元——一个可调用、可约束、可审计的 action primitive。连接与状态管理仍由系统层承担。模型负责决策,Skill 负责动作,系统负责边界。

什么叫“可调用、可约束、可审计”呢?或问:API 不也可以被 LLM 调用吗?那 Skill 到底新在哪里?是不是不过把 API 换了个名字?

还是拿具体场景为例。

假设用户说:“帮我分析最近三个月 Tesla 的股价走势,如果有异常波动解释一下,并生成一张图。”

在传统 API 结构里——哪怕是 LLM 参与——通常是这样的:程序员预先写好流程。先调获取数据接口,再调分析接口,最后调绘图接口。LLM 可能只负责填参数。流程是写死的。失败怎么办?整段重跑。出现分支怎么办?提前写好判断逻辑。组合能力存在,但组合顺序在代码里,而不在模型里。

API 是工具,流程属于程序员;Skill 仍然是工具,但流程开始被模型掌握。

系统内部不再只有“接口”,而是有一个技能注册表。获取数据、趋势分析、生成图表、生成解释——这些技能被明确描述、被登记、被纳入一个可见的技能空间。模型在规划阶段生成的是一份抽象计划:先获取数据,再分析趋势,如果波动超过阈值则生成解释,最后生成图表。顺序不再预写,而是在运行时决定。

注意这里的变化:API 时代,组合逻辑写在代码里;Skill 架构下,组合逻辑在模型的规划里。

这不是“API 换皮”,而是控制权的迁移。

再往深一点看。假如系统里有两个趋势分析技能——一个快但粗略,一个慢但精细。在传统结构里,你必须提前决定调用哪个版本。Skill 框架下,模型可以根据对用户提示中关于速度或精度的理解进行选择。技能成为可被比较的对象,而不是固定调用的函数。

再比如失败处理。如果某一步返回异常,调度层可以重试该技能,而不是重跑整个流程。系统可以统计每个技能的成功率、延迟和成本,把这些信号回流到编排里,逐步优化技能组合——说白了,API 时代也能做这些统计,只不过那更多是给运维看的:看服务活没活、慢不慢。到了 skills 这一套,统计开始变成“给调度用的”:它不仅告诉你哪个接口不稳、慢了、错了,还能看清这一步一旦出问题,会把整条任务链路拖成什么样——是局部卡顿,还是连锁失败,还是需要立刻切换备选路径。

这才是 Skill 真正站得住的地方。当然,这套技能级观测与优化的闭环,目前更多存在于领先团队的实践中,还远未成为大规模标准化现实。但结构已经具备,剩下的只是规模与时间。

API 本质上是给程序员用的。Skill 是被模型规划的。前者假设人类写流程。后者假设模型生成流程。一旦组合权从程序员迁移到模型,技能的意义就发生了变化。它不再只是代码库中的函数,而是技能图中的节点。Skill 的价值,不在它比 API 更高级,而在它让“运行时组合”成为可能,同时仍然保持工业边界。理解仍然由大模型承担,执行开始有清晰的约束。这一步,看似保守,其实是工业化。

一个成熟的 skill,至少意味着三件事:输入输出是结构化的(定义了schema);执行是可重试、可回滚的;权限是隔离的,状态是可审计的。你可以限制它的访问范围,可以记录它的调用链,可以为它计费,可以随时撤销它的权限。这些听上去一点都不性感,却是企业真正关心的东西。

它不像革命,更像基础设施建设。某种意义上,skill 是一种折中,是在标准尚未成熟之前的现实妥协。有一次听一位工程师说:“协议是理想主义,skill 是现实主义。” 就是这个意思。

或许两条路线终会合流。但目前,它们更像不同时间尺度上的试探:一个在设计未来的秩序,一个在支撑当下的落地应用。

4 技能密度

如果只是把 skill 理解为架构收敛,那还是低估了它。真正值得注意的,不是我们如何组织技能,而是技能如何开始形成密度。

过去两年谈大模型,我们几乎离不开参数规模、榜单成绩、推理分数。仿佛模型越强,生态自然跟上。但当模型能力逐渐进入同一量级,分差开始变得细微——97 分与 95 分的差别,很难再决定命运。那时候,问题悄悄换了一个方向:不是谁更聪明,而是谁背后站着更多真实可用的技能。

想象两个认知层几乎等价的模型。一个背后有二十个高质量 skill,另一个背后有两百个。前者能解决二十类问题,后者则可以在这些技能之间自由拼接、叠加、递归组合。二十个技能是工具箱;两百个技能,是图谱。工具箱解决问题,图谱开始创造路径。

技能一旦被模块化,它的价值就不再是线性的,而是网络化的。新增一个技能,不只是多一种用途,而是多出若干种组合可能。密度越高,组合空间越大,系统的“解题维度”也越多。这才是技能密度的真正含义。

移动互联网时代的经验其实早已给过提示。决定平台胜负的,并不是操作系统内核本身,而是应用数量、分发效率、支付体系与开发者活跃度。内核差异存在,但真正形成飞轮的是生态。当基础能力逐渐趋同,竞争自然转向外围的网络结构。Agent 时代未必合适做完全类比,但方向上的相似已然浮现。

于是,关键问题不再是 skills 有多少,而是它们之间能不能流动。能不能被检索?能不能被不同模型规划?能不能跨系统复用?如果技能只是堆在某个平台内部,那只是库存;只有当它们开始彼此连接、彼此调用,密度才会转化为网络效应。到那时,模型反而退到幕后,成为驱动能力网络运转的认知引擎,而不是舞台中央的主角。

这也是为什么协议和 skill 看似分岔,却可能指向同一个终点。协议更像公路标准,skill 像车和货。没有统一标准,技能难以跨域迁移;但没有真实技能,标准也只是空架子。眼下行业更像是先让车跑起来,再慢慢铺路。两条路线不是对立,而是不同节奏下的推进。

最后,那个大家期待的“App Store 时刻”还有多远?

移动互联网真正爆发,是因为分发体系成熟,支付打通,用户规模到位,超级应用出现。Agent 还没有迎来这样的节点。没有大规模的第三方能力市场,没有稳定分发的 skill 商店,也没有形成网络效应的爆款应用。Agent 现在更像移动互联网早期——有 SDK,有开发热情,但还没有形成生态飞轮。

真正的拐点可能不是几个应用的走红,而是一种结构的固化——某些技能节点开始被高频复用,某些组合路径成为默认范式,某个技能图谱逐渐变成事实标准。当技能密度高到一定程度,迁移成本自然升高,生态便悄悄形成壁垒。

垂直行业的爆发似乎一直在“即将发生”。法律、医疗、金融、教育……效率提升在发生,但结构性重塑还没有真正显现。责任边界、监管约束、数据壁垒,这些都比移动互联网复杂得多。

也许 Agent 不会以移动时代的形式爆发。它可能不是一个商店,不是一个下载按钮,不是一个用户主动选择的前台应用。它更可能以skill的形式嵌入既存系统,以后台能力的形式存在。你甚至不会意识到自己在使用 Agent,但系统已经被悄悄重写。

5 memory:任务连续性的保障

memory 可能是这一年最容易被低估的进展。

早期的 Agent 最大的问题,不是不聪明,而是短命。一次对话里很聪明,换一个窗口就失忆。企业环境下,这几乎是致命的。你无法建立长期协作关系,无法积累项目语境,无法形成持续的上下文。所有任务都从零开始,所有协作都像第一次见面。

memory 的加入,不只是为了“更懂用户”,而是为了保障任务连续性。当 Agent 开始记住偏好、约束、历史项目、上下文背景,它才真正从一次性推理工具,变成持续存在的系统。当系统开始“有历史”,它才真正具备组织价值。

但在讨论 memory 之前,需要把几个常被混淆的概念拆开。长上下文、RAG、持久状态,常常被笼统称为“记忆”,但它们其实处在不同层次。

长上下文更像 working memory——它扩展的是模型在当前任务中的注意力范围。窗口越大,模型能在一次推理中考虑的历史越多。但它仍然属于“当下”。一旦任务结束,注意力就消散。

RAG 更像外部存储的检索机制——当模型需要某些信息时,从知识库中调取资料。它解决的是“查阅”的问题,而不是“持续”的问题。它让系统在需要时能找到过去的信息,却并不自动形成时间连续。

真正意义上的 memory,是持久的(persistent) 。它至少涉及三层结构。

第一层是任务状态。任务跑到哪一步?哪些子步骤已经完成?是否可以断点续跑?这决定了系统是否具备持续执行能力,而不是每次失败都从头再来。

第二层是长期语境。用户偏好、组织约束、历史项目、权限边界——这些不应在每次对话中重复解释,而应成为系统可更新、可检索、可继承的背景。它减少重复解释的成本,可以在多任务之间共享背景,可以在组织内部形成稳定的协作节奏。

第三层是行为轨迹与决策历史。系统过去在类似场景中选择了什么路径?哪些能力组合更可靠?哪些尝试曾经失败?这已经开始接近一种“经验结构”。不是简单存储信息,而是积累行动模式。

当这三层逐渐成形,Agent 才真正拥有时间持续性。它不再只是一个即时推理引擎,而开始成为持续体。它的价值不再体现在单次回答的聪明程度,而体现在长期协作中的稳定性与积累性。

当然,这条路径仍然早期。长上下文依然昂贵,RAG 仍然粗糙,长期记忆的更新与遗忘机制尚未成熟。更棘手的是,记忆不仅带来效率,也带来风险。错误会不会被固化?偏见会不会被积累?系统是否需要主动遗忘?在持续体的世界里,遗忘和记住往往同样重要。时间既是资产,也是负担。

如果说 skill 解决的是行动边界,技能密度解决的是横向组合,那么 memory 解决的,是持续性。没有持续性,Agent 永远只是聪明的工具;一旦有了时间,它才可能成为组织的一部分。

6 开源大模型的重要性

还有另一条线索,在全球悄悄改变力量结构——那就是中国开源大模型的角色。

过去一年,如果只盯着闭源巨头,很容易忽略开源模型的跃迁速度。千问、Kimi、Step等模型开始频繁出现在开发者真实工作流里。不只是聊天测试,而是跑代码、跑 Agent 任务、跑多模态处理。

阶跃星辰春节前发布的 Step 3.5 Flash,是一个有象征意味的节点。

它的意义不在“参数更多”,而在方向感。它采用了稀疏混合专家(MoE)结构:1960 亿总参数,每次只激活约 110 亿。不是盲目扩张,而是强调效率与结构。

当传统模型用线性注意力硬撑长上下文时,它采用滑动窗口与全局注意力的混合方式。像读推理小说,大部分注意力集中在当前段落,但关键伏笔可以被快速召回。

当逐 token 生成成为默认路径时,它引入多 token 并行预测,提高速度。

这些改变,恰好对应 Agent 时代的核心需求:更长上下文、更低延迟、更稳定的逻辑执行。

Agent 不是聊天机器人。它需要等待工具执行,需要在多轮任务中保持一致性,需要在长上下文下快速响应。

更有象征意义的是,本地部署。

当一个 256K 上下文的模型,可以在 128GB 内存的 MacBook 上运行时,权力结构开始变化。Agent 的“原生大脑”不再完全锁在云端 API 里。开发者可以在终端侧构建私有工作流。这是一种终端平权。

开源在这里变得关键。垂直行业不会轻易把核心流程托付给闭源黑盒。医疗、金融、法律,需要可控、可调优、可部署的基座。

开源模型降低了实验门槛,也降低了创新门槛。很多垂直 Agent 的试验,正发生在这些模型之上。

结语

有时候我会想,这一年真正的变化,不在技术指标上,而在心态上。我们不再问:“它像不像个员工?” 我们开始问:“它能不能长期、稳定、可治理地做事?” 这是一个从幻想走向结构的过程。

协议还在演进。skills 在扩张。memory 在巩固。开源大模型越来越实惠。垂直应用在试水。一切都在进行,时间还不足以让它们马上成熟。

如果说这一年教会我们的是什么,也许是这一点:技术革命往往不是轰然到来,而是慢慢嵌入。当你意识到它已经成为结构的一部分时,它才真正发生。

雾还没有散。但轮廓已经出现。

 

from 腾讯科技,策划:晓静

多模态大模型输入信号的离散化

量化/离散化并不是为了把 Transformer 的隐藏维度 d 变短;d 是模型容量的选择。它更像是把感知信号先压缩成更紧凑的 token 序列:要么减少 token 数 n,要么减少每个 token 的比特数,从而降低数据、缓存和生成难度;而进入 Transformer 后,仍统一用 d 维表示进行推理与融合。

d (任何token投影成同一个长度 d 的隐藏向量,这是真正的内部token表示,作为网络的处理对象)是大模型训练的一个超参数。并不与token离散还是连续直接相关,虽然连续token的design,会促使研究者倾向于选择更大的 d,好留下/捕捉更多的信息。

一个自然的问题是:如果最终都要投影到同一个固定的隐藏维度 d 里,那我把视觉表示做离散量化,岂不是“重复劳动”?

答案是:不重复。量化/离散化解决的主要不是“d 该多长”,而是另外三件更贵、更要命的事:序列长度 n、比特数/带宽、以及生成端的难度。做个比喻,d 只是“车道宽度”,量化更多是在“减少车流量、压缩货物体积、换一种更容易开车的路”。

量化/离散化并不是为了把 Transformer 的隐藏维度 d 变短;d 是模型容量的选择。它更像是把感知信号先压缩成更紧凑的 token 序列:要么减少 token 数 n,要么减少每个 token 的比特数,从而降低数据、缓存和生成难度;而进入 Transformer 后,仍统一用 d 维表示进行推理与融合。

一、d 固定不等于成本固定:真正的重头往往在 n 和注意力

在 Transformer 里,最敏感的是 token 数 n,因为注意力的开销大体跟 𝑛平方走。

例子:256×256、8×8 patch → 1024 tokens

这时再“固定 d=1024”,仍然要付出 1024×1024 规模的注意力矩阵成本。

而很多离散化方案(尤其是“先编码到更小的潜空间 latent,再离散”)真正干的是:
把 n 从 1024 砍到更小(比如 256、128、甚至更少),这是实打实的减法。

关键点:
离散化经常和“空间下采样/潜空间token化”绑定出现,它省的首要是 n,而不是 d。

二、量化/离散化的“省”,经常发生在 Transformer 之外:数据、缓存、I/O、显存

即便进模型后都变成 d 维向量,离散表示仍然有明显优势,因为它让“流动的东西”从浮点变成整数码int:

数据存储与训练管线:连续 latent 往往是 fp16/fp32 的大块张量;离散 code 是 int(再配合熵编码就更夸张了),数据集体积、读盘带宽、吞吐都会降很多。

中间结果缓存:比如多轮编辑、视频生成、多段推理,缓存离散码(index)比缓存高维连续特征更省得多。

跨模块传输:端侧/服务端/多机之间传中间表示时,离散码天然更省带宽(也更不容易“飘”或“糊”)。

这些开销在真实系统里非常“肉疼”,而且往往比你想象的更早成为瓶颈。

三、离散化还会改变“生成问题”的性质:从回归连续值变成选码本

生成模型最难的一步是什么?很多时候是:
在高维连续空间里生成“看起来像”的东西,既要细节又要稳定。

离散码本(VQ 这类)把生成变成:

先生成一串离散符号(选哪个 code),

再由解码器把符号还原成图像/音频。

这会带来两个常见收益:

学习目标更“像语言”:LLM的自回归/序列建模更顺手。

错误更可控:连续回归的小偏差会导致视觉上糊、飘;离散码的错误更像“选错词”,后处理或自回归本身的纠偏空间更大。

当然它也可能带来副作用(码本过小会导致“积木感/失真”),但这不是“重复劳动”,而是在换一种折中。

提炼一下,总结如下

很多读者第一次听到“把图像也离散成 token”,都会产生一个自然的疑问:既然最后进到 Transformer 里,所有 token 都要被投影成同样长度的隐藏向量 𝑑
(例如 1024),那把视觉表示做离散量化,岂不是重复做功?

关键在于:量化并不是为了把 𝑑 变短。𝑑 是模型容量的选择——就像“这台大脑有多宽的工作台”。量化真正改变的,是另外两件更昂贵的东西:一是序列有多长(token 数
𝑛),二是每个 token 以多少比特在系统里流动(存储与带宽)。

以 256×256 的图片为例,按 8×8 patch 切分就是 1024 个 token,长度已经是“千级”,注意力的开销会随 𝑛 平方放大;这时哪怕 𝑑 固定,计算也依然很重。很多“离散化”方案往往同时在做一件更实惠的事:先把图像编码到更低分辨率的潜空间,再在潜空间里离散化,从而把
𝑛 从 1024 压到更小的量级——这才是省算力的第一刀。

更重要的是,离散 token 在 Transformer 之外也能显著省钱:它让中间表示从高维连续张量(浮点表示)变成整数码(int表示),数据集更小、读写更快、缓存更轻,跨模块传输的带宽压力也更低。换句话说,离散化是在“运输与存储层面”先把货物压缩了;至于进入大模型之后是否用 𝑑 = 1024 来统一表示,那是“工作台宽度”的问题,两者并不矛盾。

所以,把视觉信号离散成 token 不是重复劳动,而是把成本从“又长又重的连续序列”转成“更紧凑、更易搬运的符号序列”,从而让多模态统一建模更接近语言模型那套LLM成熟的工程范式。

 

置顶:《立委关于大模型与AI的科学网博客汇总》

Autopilot 被剥离: 一次关于信任与定价权的误判

2026-1-28 10:33

自动驾驶已经解决了,但我们还没准备好告别驾驶

2026-1-28 10:06

How FSD Quietly Took Control of Pricing Power

2026-1-26 19:36

If Robotaxi Fails, This Is Where It Will Fail

2026-1-26 19:33

保险降价,是自动驾驶第一次“自证盈利模型”

2026-1-26 15:18

FSD 会拯救“最不被保险欢迎的人”

2026-1-26 15:13

如果 FSD 真的会失败,特斯拉最可能栽在哪里?

2026-1-26 05:59

Insurance Voted First Why FSD 13 / 14 / 15 May Reprice the E

2026-1-26 05:58

从 FSD 13 到 Unsupervised(F15):自动驾驶如何穿透保险、监管与商业模式

2026-1-26 05:18

多少牛人陷入大模型的认知茧房?

2026-1-23 14:51

从open ai 主打的 耳后AI耳机谈起

2026-1-23 14:47

耳机是你的贴身陪伴吗

2026-1-23 11:39

从 “Fake It” 到 “Vibe It”

2026-1-23 11:37

全双工到天花板的豆包

2026-1-3 22:40

FSD + Grok:超人老司机,带着“实习导游”上路

2026-1-3 11:02

梁文峰团队的 mHC 研究在做什么

2026-1-2 18:22

AI 编年史:公元 2025

2026-1-2 18:20

从“眼球 + SaaS”到“大模型商业”

2026-1-2 18:16

AI Reflections on 2025

多模态进化论:从“看图说话”到“原生直觉”

2025-12-18 12:49

正常的模型反哺不会导致模型坍塌

2025-12-18 12:45

2025 年 AI 感怀

2025-12-18 12:43

大模型训练的数据“炼金术”

热度 1 2025-12-16 01:06

再论大模型压缩的“有损”与“无损”

2025-11-24 14:30

大模型是无损压缩还是有损压缩,李飞飞与伊利亚谁是对的?

2025-11-24 11:47

GPT非监督学习到底怎么就学会了各种监督任务呢?

2025-11-10 15:27

自学习是思想革命,Transformer是工程火箭

2025-11-8 08:27

CNN与RNN——让机器学会看与听

2025-11-8 08:26

Backpropagation: The Key to Deep Neural Networks

2025-11-8 08:25

The Chain Rule: The Mathematical Guarantee Behind Backpropag

2025-11-8 08:24

链式法则:反向传播能work的数学保证

2025-11-8 08:23

反向传播:深层神经网络的钥匙

2025-11-8 08:22

从高级语言的基本逻辑装置到图灵机的编译

2025-9-19 10:16

小科普:图灵机是怎么工作的?

2025-9-19 10:13

尼克讲座第二弹:语言=思维=智能=计算=图灵机?

2025-9-19 10:10

Breakthroughs in Speech Technology in the Era of Large Model

2025-9-14 11:07

Neural Codec: Key Audio Techniques in the LLM Era

2025-9-14 11:06

 大模型时代的语音技术突破:超写实和全双工

2025-9-13 01:37

说说神经 codec,大模型时代的音频技术要点

2025-9-12 17:25

跨模态连接器范式:谷歌模型Flamingo回顾

2025-9-3 09:39

图文对齐的关键一跃:CLIP 回顾

2025-9-3 09:37

 注意力塌缩:关于“秩”的误会与真相

2025-8-30 12:03

BERT 双向 vs. GPT 单向与“低秩之虑”

2025-8-28 10:22

自监督学习的两大模型,为什么GPT跑赢了BERT成为王者?

2025-8-23 14:02

Is the World Material or Informational?

2025-8-19 11:33

AI 的威胁:不是恶意,而是作用链

2025-8-18 18:13

一个日常生活真实需求的 Deep Research 案例

2025-8-9 04:19

老友访谈:AI对工作市场的影响 (审核未通过)

2025-8-4 12:43

从 Suno 看 AIGC 艺术民主化大潮

2025-8-3 02:03

狼来了,狼来了,“奇点”狼这次是真要来了吗?

2025-8-1 12:48

notebookLM赋能:隐藏推理,大模型推理模型的新动向

2025-7-31 10:33

思维等于语言吗??

2025-7-25 12:53

Is Thinking Equal to Language?

2025-7-25 12:52

GPT作为序列数据的无损压缩器

2025-7-8 14:04

与尼克等老友唠大模型压缩理论

2025-7-8 14:02

破除“无损压缩即智能”的迷思

2025-7-8 14:00

Demystifying the misconception of "Lossless Compression as I

2025-7-8 13:58

要区分GPT训练中的压缩,与拿GPT当压缩器工具

2025-7-7 03:21

信息论科普:GPT对给定序列无损压缩的最终区间

2025-7-7 03:19

信息论科普:香农极限(Shannon Limit)

2025-7-7 03:17

 

GPT无损压缩小问答(3):算术编码

2025-7-7 03:16

 

GPT无损压缩小问答(2):为什么说GPT是无损压缩?

2025-7-7 03:14

 

GPT无损压缩小问答(1): 高压缩率导致系统脆弱

2025-7-7 03:13

 

Yann LeCun 所鼓吹的「世界模型」与GPT+Diffusion有什么不同

2025-6-22 02:08

 

像素值是“连续变量”,还是工程上的伪装?

2025-6-22 02:01

 

从0实现并理解GPT

2025-6-4 00:43

 

大模型科普:探秘莎翁风格的诞生之旅(无代码版)

2025-6-3 15:32

 

LLM的后训练强化学习是怎么工作的

2025-6-2 10:26

从0实现并理解GPT (审核未通过)

2025-6-1 03:08

从零实现莎士比亚风 GPT科普解说 (审核未通过)

2025-6-1 03:07

 

大模型科普:探秘莎翁风格的诞生之旅(无代码版) (审核未通过)

2025-6-1 03:05

 

解读EMPO全程无监督推理新范式

2025-5-27 14:08

 

Decoding the New EMPO Reasoning Paradigm

2025-5-27 14:07

T

MeanFlow: AI图像生成的降维打击

2025-5-22 19:15

 

Review of Autoregressive and Diffusion Models for Video Gene

2025-5-3 04:02

Unveiling the Two "Superpowers" Behind AI Video Creation

2025-5-2 12:49

 

非量化自回归视频生成模型NOVA的技术路线

2025-5-2 11:11

 

立委科普:揭秘AI创作视频的两种“神功”

2025-5-2 11:09

中文分词的前世今生

热度 2 2025-3-30 12:57

 大模型如何解锁AI各种任务成为通用引擎的?

热度 2 2025-3-29 12:36

Grok:大模型为什么要超大数据?(4o配图)

2025-3-28 06:14

 

Grok: 大力出奇迹的背后

2025-3-28 06:10

 

 

《“蜜蜂巢”里的子弹:JFK档案解密后》

2025-3-27 06:37

Grok:超大数据的大模型为何能收敛?

热度 1 2025-3-27 06:34

Gemini Deep Research:用“Logits Lens”洞察神经网络的奥秘

2025-3-23 14:22

 

检索增强(RAG)与窗口数据的互补性 (图文版)

热度 1 2025-3-20 18:09

 

03 deep research: Challenges and Prospects of Advanced Reaso

2025-3-20 18:04

 

Sonnet3.7: 推理大模型的挑战与前景(图文版)

2025-3-20 17:57

 

数学圆舞曲:欧拉恒等式(配乐诗朗诵)

2025-3-20 03:27

 

人类 vs 恐龙:一场关于“不作不死”的滑稽短剧

热度 1 2025-3-18 12:17

 

deep research: 最新颈椎病手术指征与治疗概览

2025-3-18 12:12

 

关于颈椎病,大模型医疗建议靠谱吗?

热度 1 2025-3-18 12:05

给奶奶讲一下AI最新物种“大模型代理”

2025-3-14 15:34

-

Decoding LLM-native Agents: Bridging Compilation and Interpr

2025-3-13 02:42

The Agent Era: The Contemporary Evolution from Chatbots to D

2025-3-13 02:38

o3 deep research: 智能体的应用和演进

2025-3-10 18:21

 

万字长文解析 LLM-native Agent 及其混合计算方式

2025-3-10 07:13

Xiao Hong Red:肖弘其人

2025-3-10 07:05

 

Agent元年:从聊天机器人到数字员工的当代进化史

热度 1 2025-3-9 00:00

 

Agent:数字代理的崛起与未来

热度 1 2025-3-8 23:56

 

 o3 deep research: LLM 驱动的 Agent 综述

热度 1 2025-3-8 23:49

 

【外一篇:推理范式演进中的概念】

 

生成式AI学习中容易混淆的几个术语

 

 

2025-3-5 17:06

 再谈自然模态数据是高维空间的低维流形

2025-3-4 09:12

The Three-Stage Scaling Laws Large Language Models

2025-3-3 15:06

大模型三阶段的 scaling laws 接力赛

2025-3-3 10:59

Fundamental Limitations of Deep Learning: Origins in Data-Dr

2025-3-3 04:29

深度学习的局限性研究综述

热度 1 2025-3-3 02:31

o3 deep research: 深度学习局限性研究报告

热度 1 2025-3-3 02:26

左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练

2025-2-28 05:22

o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析

2025-2-28 04:27

 RPA 赛道与大模型Co-pilots早期创业者的困局

2025-2-27 12:31

Linguists Should Find Self-Attention Intuitively Familiar

2025-2-25 02:14

语言学家应该很容易理解自注意力机制

热度 1 2025-2-24 17:49

符号主义被打入冷宫太久了,难道神经是AI的终结者吗?

2025-2-24 02:00

Has Symbolism Been Sidelined for Too Long?

2025-2-24 01:59

如何理解自注意力机制中的QKV分工?

2025-2-21 05:31

Transformer 和注意力机制简介

2025-2-21 05:25

DeepSeek: Learning to Think Slowly Without Human Supervision

2025-2-16 01:03

 DeepSeek爆火真相:不靠“人盯”, 让AI自己学会慢思考

热度 2 2025-2-15 11:01

Reasoning Paradigm (Query+CoT+Answer) Support scaling law?

2025-2-14 23:29

Understanding DeepSeek R1\'s Reasoning

2025-2-14 14:10

DeepSeek 笔记:R1 部署阶段的推理机制

2025-2-14 08:52

DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?

2025-2-14 08:49

 

Hallucinations in AI: Bug or Feature? A Deep Dive into DeepS

2025-2-10 03:05

 从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?

2025-2-10 02:17

 

 推理强化模型中思维链的本质

热度 2 2025-2-8 04:11

 

R1: 《立委列传》

2025-2-6 03:14

 推理强化学习是端到端的监督,推理过程的非监督

热度 1 2025-2-1 14:00

 

RL: Supervised Outcomes, Unsupervised Processes

2025-2-1 13:58

 

DeepSeek R1:《少年DS之烦恼》

2025-1-31 03:04

告诉李雪琴一个激发写段子灵感的秘诀:找deepseek R1

2025-1-30 23:12

DeepSeek 风暴下看看它的论文

2025-1-27 23:58

DeepSeek\'s R1 Paper: A Storm in AI LLM Circle

2025-1-27 23:56

The Turbulent Second Chapter of Large Language Models

2024-9-9 05:31

大模型风云诡谲的下半场:scaling 失效?

2024-9-8 08:25

Professor Ma\'s long paper out

2024-9-6 00:35

马毅教授的演讲,值得一听

2024-9-5 22:09

NLP老司机的AIGC旅程

2024-9-4 22:40

解耦才能解套:再谈视频中的人物一致性问题

2024-9-2 18:27

马毅教授称,已经揭开完全揭开神经网络的面纱

2024-9-1 17:45

人形机器人大热,但看不到商业闭环

2024-9-1 07:14

推动AIGC商业落地,出门问问的「产模结合」实践

2024-8-31 07:17

转述老领导的硅谷风投现状和展望的分享

2024-8-31 05:54

视觉模型生成的极限对齐

2024-8-28 08:15

立委论LLM:什么是AI刚需

2024-8-28 07:46

立委论LLM:视频生成的人物一致性问题

2024-8-28 07:13

UBI 势在必行

2024-7-5 07:43

姑蘇胡氏哀辭(AI作词作曲)

2024-7-1 14:33

短视频:大模型奥秘

2024-6-28 15:41

大模型的理论奥秘

2024-6-26 19:28

Nick traching the AI history for LLM theoretical foundation

2024-6-26 17:07

大模型以来,觉得可以留个记录

2024-6-23 15:37

《谈两种复杂度》短视频科普

2024-6-20 09:26

《介绍监督学习的数学原理》短视频科普

2024-6-20 05:07

《谈谈端到端和大模型》短视频

2024-6-17 00:53

古典诗词AI配乐集锦

2024-6-5 10:08

【唐诗300首 AIGC 配乐: 白居易 琵琶行】

2024-6-2 07:35

两分钟短评:大模型开始进入平台期吗

2024-5-20 18:11

悲观主义的视角,人类的宿命

2024-5-20 18:10

两分钟谈:模型训练的内插、外插

2024-5-20 18:07

两分钟谈谈:Moravec悖论

2024-5-20 18:05

就《Suno: 望震》与音乐大家的对话

2024-4-5 19:14

 

Suno:《宋輝:人生笑话》-- 献给插队一代人 (审核未通过)

2024-4-5 19:12

大模型短视频系列:大模型压缩与白马非马

2023-8-18 19:41

AI创作花絮: 《月影双剑》

热度 1 2023-8-17 18:26

数字人形象设计:为什么选她?

2023-8-14 15:34

大模型的落地现状和前景

2023-8-11 17:34

大模型漫谈系列n

2023-8-9 10:53

奇妙元体验AIGC奇妙:《岁月如歌:神秘园》

2023-7-11 05:54

《AI浪潮: 辛顿的 AI 威胁论与马斯克如出一辙》

热度 1 2023-5-7 23:54

《AI潮流:跟Andrew学如何调用 ChatGPT 做自己的服务前台》

2023-5-5 08:45

《AI潮流:与 ChatGPT4 聊“买房送老公”背后的语言学》

2023-5-5 08:45

《AI潮流:开发者提示工程公开课中的二原则》

2023-5-5 08:44

【AI 浪潮:超级词匠 ChatGPT4 的百变文风】

2023-5-1 22:25

【AI 浪潮:自主性是人类智能的最后堡垒吗】

2023-4-30 18:47

【AI 浪潮:GPT-4 的上下文逻辑与常识还是不够稳固】

2023-4-30 18:46

【AI 浪潮:数据中心的大模型时代】

2023-4-30 18:44

快讯:腾讯科技AI未来指北系列 今天直播间与鲁总唠一唠大模型(LLM)

2023-4-23 07:32

【劳碌命论LLM:大模型推理的细节编造是 feature,不是 bug】

2023-4-23 07:24

ChatGPT Tsunami and Its Impact on IT Landscape and Ecosystem

2023-3-8 08:27

AIGC“尖峰系列”丨李维博士:人类语言“通天塔”建成,ChatGPT的辉煌与挑战

2023-3-6 21:06

《AI浪潮:chatGPT 搞定了人类语言》

2023-2-13 01:11

The Removal of Autopilot: A Misjudgment of Trust, Pricing Power, and Timing

In recent weeks, Tesla quietly made a structural change to its driver-assistance lineup in North America: new vehicles no longer include the traditional “flagship” Autopilot function—lane centering combined with adaptive cruise control—as a standard feature.  Instead, the full experience is now effectively gated behind the expensive FSD subscription.

On paper, this looks like a routine product and pricing adjustment.  In reality, the intensity of the user backlash suggests something much deeper was touched.

This is not merely a feature debate.  It is a question of trust, pricing boundaries, and the ethics of transition.


Autopilot Was Never “Just a Feature”

For many Tesla owners, Autopilot was not an optional convenience.  It was the reason to buy a Tesla in the first place.

Long before Full Self-Driving became a grand vision, Autopilot delivered something tangible:

    • Reliable lane keeping

    • Competent adaptive following

    • Daily, repeatable stress reduction in real driving

It represented Tesla’s earliest and most visible lead over competitors—not in theory, but in practice.

More importantly, Autopilot functioned as a trust generator.  It was the psychological bridge that allowed drivers to gradually relinquish control to software.

Without that bridge, the promise of FSD would never have been credible.


Autopilot Was Never Truly “Free”

Much of the public debate rests on a flawed premise:
that Autopilot was a free feature Tesla is now taking away.

Historically, this is not accurate.

For long periods, Autopilot was bundled into the vehicle price by default, with no opt-out option.  Customers paid for it implicitly, not optionally.

As a result, removing it from the baseline experience and re-introducing it through subscription feels, to many users, like a disguised price increase—not an upgrade path.

In consumer trust economics, disguised price increases are among the most damaging moves a company can make.


Timing Matters: You Cannot Remove the Base Before Delivering the Replacement

From an engineering perspective, Tesla’s desire to unify its driving stack under FSD is understandable.  Maintaining parallel systems is costly and inefficient.

The problem is not the direction—it is the timing.

At this moment:

    • FSD remains explicitly labeled as supervised

    • Unsupervised autonomy has no public, binding timeline

    • Legal responsibility still rests with the human driver

Under these conditions, Autopilot is not legacy baggage.
It is the stable base layer that allows users to tolerate experimentation above it.

Removing that base before a clearly superior, cost-effective, fully accepted alternative exists is perceived as withdrawing safety capital before depositing its replacement.

This is not a technical error.
It is a trust error.


Why Early Adopters Are Especially Angry—Even When Unaffected

One striking aspect of the backlash is that many critics already own FSD and are not personally impacted.

Their reaction is instructive.

Early adopters lived through:

    • Autopilot’s formative advantage years

    • FSD beta’s chaotic, error-prone experimentation

    • Acting as data providers, testers, and tolerance buffers

They accepted risk because the foundation was solid.

The moment that foundation is removed, even symbolically, it signals something unsettling:

If this can be unbundled abruptly,  nothing that exists today is truly safe from re-monetization tomorrow.

That realization triggers defensive outrage—not entitlement.


Tesla’s Perspective Is Rational—But Incomplete

To be fair, Tesla is not acting blindly.

From a corporate standpoint:

    • Driving capability is transitioning from a vehicle attribute to a continuously evolving service

    • FSD’s endgame involves robotaxis and time monetization

    • A free or semi-free Autopilot tier complicates long-term pricing power

Elon Musk has repeatedly stated that FSD pricing will rise as capability increases.

That logic is internally consistent.

But it omits a critical constraint:

You may price the future,
but you cannot pre-emptively withdraw today’s sense of safety
to finance tomorrow’s ambition.

This Is Not a Technology Debate—It Is a Pace Debate

At its core, the disagreement is not about whether autonomous driving will arrive.

Most informed users believe it will.

The disagreement is about how we move through the transition.

For many drivers, the ideal state is not permanent autonomy, but choice:

    • Drive when you want

    • Delegate when you don’t

Stable Autopilot combined with supervised FSD came closest to that balance.

It was not perfect—but it respected human agency.


Conclusion: The Market Will Respond

This decision will not destroy Tesla.
But it will likely produce measurable consequences:

    • Slower adoption among new buyers

    • Increased subscription skepticism

    • A cooling of community goodwill

Those signals are not punishment.  They are feedback.

Great companies are not defined by never making mistakes, but by whether they learn to recalibrate before trust erosion becomes structural.

Tesla still has time to do that.

But only if it recognizes that trust, once unbundled, is far harder to resubscribe.

Autopilot 被剥离: 一次关于信任与定价权的误判

最近,Tesla 在北美市场对其驾驶辅助功能体系进行的一次调整,引发了远超预期的用户反弹:新车不再标配传统意义上的 Autopilot(车道保持 + 自适应巡航),取而代之的是对 FSD 订阅的兜售。

表面上,这是一则“产品线与定价策略调整”的新闻;但从用户反应的烈度来看,这更像是一次对既有信任结构的碰撞


一、为什么反弹如此强烈?

如果仅从功能角度看,Autopilot 的剥离似乎并不影响车辆的被动安全或基础主动安全指标(例如自动紧急刹车)。但问题恰恰在于:Autopilot 从来不只是一个功能。

对大量特斯拉车主而言,Autopilot 是:

    • 决定是否购买特斯拉的关键理由
    • 从“人控”走向“机控”的心理过渡层
    • 对 FSD 未来愿景产生信任的现实锚点

尤其对早期用户来说,Autopilot 是一个已经被长期验证、每天可用、稳定可靠的系统。
正是这个“可依赖的现在”,支撑了用户对“尚未完成的未来”的耐心。


二、被忽略的事实:Autopilot 并非“免费赠品”

很多争论中存在一个模糊前提:

Autopilot 是不是“原本免费的,现在被拿走了”?

事实是:

Autopilot 并非纯粹免费,而是被隐含计价、打包进整车价格体系中的。

在相当长一段时间里,Autopilot 是默认配置,没有 opt-out 选项。用户并非“没付钱”,而是被动为其付费

因此,当它被单独拆分、重新进入订阅或付费体系时,许多用户产生的并不是“功能缩水”的情绪,而是更直接的判断:

这是一次变相涨价,以及对于用户体验锚点的无视。

这恰恰是最容易伤害用户信任的商业行为之一。


三、在没有替代方案之前,剥离基座意味着什么?

从工程与产品逻辑上看,特斯拉推动技术栈统一、减少系统分裂,是可以理解的。
但问题在于时序

在当前阶段:

    • FSD 仍被官方明确标注为 supervised
    • 无人监管(unsupervised)没有明确时间表
    • 法律与责任主体仍然高度依赖人类司机

在这种情况下:

先移除已经成熟、被广泛信任的 Autopilot,而非先交付一个等价或更优的廉价替代体验,本质上是在透支既有信用。

这不是技术问题,而是产品伦理与信任边界的问题


四、为什么早期用户的愤怒尤为尖锐?

一个耐人寻味的现象是:很多表达愤怒的声音,来自仍然拥有 FSD、甚至并未直接受影响的老用户。

原因并不复杂。

我们这些早期用户经历过:

    • Autopilot 明显领先同行的阶段
    • FSD beta 千疮百孔、问题频出的阶段
    • 作为“技术极客”“小白鼠”,用耐心与数据参与系统演进的阶段

我们之所以愿意忍受早期的不成熟,有一个前提:

基座是稳的,业内领先的。现在几乎所有厂家所有车型,都开始提供某种程度的车道保持与跟车的辅助驾驶,但感觉还是特斯拉的 auto-pilot 最靠谱。

当这个基座被拆解,哪怕自己暂时不受影响,也会本能地意识到:

如果这种做法成立,那么未来任何“既得体验”,都可能被重新定价。

这不是情绪化的抵触,而是对规则被单方面改写的警觉。


五、特斯拉并非“没算清楚账”

必须承认,特斯拉并非不知道风险。

从公司视角看:

    • 自动驾驶能力正在从“车辆属性”转向“持续演进的软件服务”
    • FSD 的终局是 Robotaxi 与时间货币化
    • Autopilot 作为“免费层”,长期支持可能成为技术与定价的阻碍

尤其是在Elon Musk 多次强调 FSD 未来将随着能力提升而涨价的背景下,将驾驶能力整体纳入订阅体系,在商业逻辑上并非不可理解。

但问题在于一句话:

你可以为未来定价,但不能在未来尚未交付之前,就先抽走用户今天的安全感,剥夺用户的选择权。

六、结语:市场终会给出反馈

我并不认为这次调整会“毁掉特斯拉”。但我相信,它会带来一段必要的市场反馈期:

    • 新用户的犹豫
    • 社区情绪的降温
    • 对订阅价值更苛刻的审视

如果特斯拉足够伟大,它终将学会在速度之外,重新尊重节奏。

 

 

自动驾驶已经解决了,但我们还没准备好告别驾驶

Full self-driving is a reality, a solved problem — at least for the driver who still wants to drive.

多年来,关于自动驾驶何时能解决,一直存在争论。马斯克最近声称 FSD 是个已经解决的问题。对此,我是基本同意的。

如果一定要给出一个具体的答案,我的结论并不激进,却可能让很多人不舒服:

对个人驾驶体验而言,FSD 已经在事实上完成了。

至少,在 supervised FSD 这一形态下,它已经达到了个体体验意义上的“天花板”。


一、技术标签与真实体验的脱节

从官方定义看,当前的 FSD 仍然被严格标注为 supervised,属于所谓 L2级别
这意味着:
法律上,司机必须随时准备接管;
责任上,人类仍是最终驾驶主体。

但从真实使用经验出发,这个标签与体验之间已经出现了明显脱节。

在连续数月的日常驾驶与多角度测试中,我实际上不再需要接管车辆(特殊情形不算,例如对它选择的停车位不满,接管停在其他位置)。并不是因为系统“完美无缺”,而是因为它已经稳定到足以让我进入一种持续的 relax 状态——
不再紧张地盯着前方路况,不再把注意力持续锁定在驾驶动作本身。

这不是演示视频,也不是短时测试,而是长期、重复、可复现的日常状态。


二、“完美”并非无瑕,而是边际收益枯竭

当我说 supervised FSD 在体验层面已经“完美”,并不是指它已经白璧无瑕、永不犯错。

我指的是另一件事:

从 99.9% 到 99.99%,甚至 99.999%,对个体驾驶者而言,体验收益已经趋近于零。

对绝大多数个人用户来说,我们的驾驶场景具有天然的限制:

    • 活动半径有限(多围绕家庭与固定区域)

    • 驾驶时间有限(一天几小时已经非常多)

    • 路况分布高度重复

在这样的条件下,“长尾事故率”的持续下降,已经很难被感知。它仍然重要,但不再是体验意义上的跃迁。


三、为什么特斯拉仍然必须继续“卷那几个 9”

这里必须明确区分两个视角:

个体用户的视角

系统级部署者的视角

对特斯拉而言,FSD 的目标不是“让某个或某批用户放松”,而是要在 全球范围、数百万乃至上千万辆车 上长期稳定运行。

在这种规模下,任何微小概率事件都会发生,并迅速演化为监管、舆论与公共安全事件。

因此,对特斯拉来说:

    • 99.9% 远远不够

    • 99.99% 仍然危险

为了最后那几个 9,即便需要成倍提升算力、传感与系统冗余,也在所不惜。这不是偏执,而是规模化系统的宿命。


四、真正的质变,不在“更好”,而在“不再被允许接管”

下一次真正的质变,来自 unsupervised FSD的普及。

那将是一个完全不同的阶段:

    • 人类不再被允许接管

    • 人类不再是驾驶主体

    • 车辆从“辅助系统”变为“自主系统”

这不是体验升级,而是权力结构的切换。但必须诚实地说:这未必是所有驾驶者最向往的状态。

对我与不少人而言,理想的状态并不是“我永远不能碰方向盘”,而是:

想开就开,不想开就交给系统。

在这个意义上,supervised FSD 反而是一种极其珍贵、且注定短暂的理想的平衡态。


五、时间被正式货币化的那一天

从商业角度看,FSD 订阅价格真正大幅上行的锚点,并不在于技术“又好了多少”,而在于 unsupervised FSD 获得监管批准、合法上路的那一刻

因为在那一刻:

    • 时间被正式货币化

    • 注意力被正式定价

    • 风险被正式从个人转移给系统

当你上车就可以睡觉、工作、娱乐,当车辆成为你的移动客厅或办公室,你节省下来的时间、精力,甚至生命风险,都会被清晰地标上价格。

那时,订阅费不再是“软件费用”,而是 时间与安全的分成机制


六、一个反直觉的结论

当无人驾驶成为社会默认的出行方式,人类驾驶反而会变成一种昂贵的奢侈品。就像今天骑马一样:不是因为它更高效,而是因为它更“酷”、更稀罕、更昂贵、更有怀旧的奢侈感。

但在那个时代真正到来之前——或许还需要 5 到 10 年的制度过渡期——我们正身处 supervised FSD 的黄金时代:

法律仍然默认是人类驾驶;系统已经足够成熟(越俎代庖为常态);而个人驾驶权,尚未被剥夺。

这是我从 FSD beta 到 supervised FSD,五年多使用与观察的真实心路历程。

而现在,正是体验意义上的自动驾驶的天花板时刻。尽情享受吧,在我们不得不交出方向盘之前。

一旦真正进入无人驾驶时代,robotaxi 随叫随到,而且会像公共交通一样便宜;那时,几乎没有任何经济理性,再去供养一辆价值数万美元、利用率不到10%、占据生活成本的大头(仅次于房贷)、只为“自己开”的私家车。

How FSD Quietly Took Control of Pricing Power

The First People Autonomous Driving Saves

For years, the commercialization debate around autonomous driving has been framed as a consumer question:

Are people willing to pay for self-driving?

That question is already outdated.

What is actually happening is more structural and far more consequential:
pricing power is migrating—away from human preference and toward system-level risk reduction.

Insurance pricing is the first place where this shift becomes visible.


Insurance Is Not a Subsidy. It Is a Proof Mechanism.

In much of the U.S., monthly auto insurance premiums hover around $200–$250.
When the use of Tesla’s Full Self-Driving (FSD) demonstrably lowers accident rates, insurers begin to respond—not rhetorically, but financially.

A 40–50% premium reduction translates into $100–$125 per month in savings.
That alone is enough to offset the current $99/month FSD subscription fee.

At that point, FSD stops being an “extra expense.”
It becomes a risk arbitrage instrument: users exchange control for lower expected loss.

This is not marketing.
It is actuarial gravity.


The Hidden Feedback Loop: Safety → Insurance → Adoption → Pricing Power

Once this mechanism scales, it creates a powerful positive feedback loop:

    1. FSD adoption reduces accident rates

    2. Reduced accident rates trigger insurance discounts

    3. Insurance savings neutralize the perceived cost of FSD

    4. Adoption accelerates

    5. Data improves → system safety improves further

At scale, subscription pricing becomes adjustable upward—not because users are enthusiastic, but because the alternative is objectively more expensive and riskier.

That is how pricing power changes hands.


Why Traditional Insurance Starts to Break

Classical auto insurance is built on one premise:
risk is priced based on the human driver.

Once system-driven safety enters the equation, this model destabilizes.

Low-risk drivers using FSD exit the traditional insurance pool first.
What remains is a concentration of higher-risk drivers—older, distracted, accident-prone, or living in high-incident regions.

Insurers then face a binary choice:

    • Raise premiums → lose even more low-risk customers

    • Don’t raise premiums → absorb unsustainable losses

This is textbook adverse selection, and it has no graceful exit.

Legacy insurers like GEICO are not failing operationally; they are being structurally disintermediated.


The Truth: FSD Benefits “Bad Drivers” Most

There is a persistent misconception that autonomous driving primarily benefits skilled, attentive, tech-forward users.

Risk economics says otherwise.

From a system perspective:

    • Improving a good driver yields marginal gains

    • Constraining a bad driver yields massive variance reduction

FSD does not care who you are.
It only cares how much control it has.

Once control is transferred, individual differences collapse toward a shared safety baseline.

This leads to a conclusion:

The people autonomous driving truly saves most are those the insurance market no longer wants.

Not out of compassion—but efficiency.

Technology compresses variance.
It always works where variance is highest.


From Product to Infrastructure

If FSD adoption were limited to elite users, it would remain a premium feature.
But once it begins absorbing high-risk drivers and visibly lowering aggregate accident rates, its role changes.

It becomes infrastructure.

At that point:

    • Not using FSD becomes the higher-risk choice

    • Manual driving begins to resemble a premium liability activity

    • Human control starts to look like an opt-out, not the default

Insurance pricing is simply the first societal signal of this inversion.


Tesla and Insurers Are Quietly Aligned

Companies like Lemonade are aligning with a future in which:

    • Risk is priced at the system level

    • Safety is statistically provable

    • Liability migrates away from individuals and toward platforms

In that future, insurers don’t fight autonomy—they follow it, because that is where solvency lives.


Final Thought

When insurance premiums fall, the question is no longer whether people want autonomous driving.

The real question becomes:

At what point does human driving become the unaffordable option?

That is how pricing power changes—not by persuasion, but by math.

If Robotaxi Fails, This Is Where It Will Fail

Robotaxi is often framed as a technical moonshot.
That framing is wrong.

The technology is not the primary risk.

If Robotaxi fails, it will fail for non-technical, system-level reasons.


1. Not Safety—But Perceived Safety

Statistical safety is not the same as social acceptance.

A system can be 10× safer than humans and still fail if:

    • Incidents are rare but spectacular

    • Media amplification is asymmetric

    • Human-caused accidents are normalized, machine-caused ones are not

Robotaxi must overcome salience bias, not just engineering benchmarks.

Insurance backing helps—but perception lags data.


2. Regulatory Latency, Not Regulatory Hostility

Most regulators are not anti-autonomy.
They are anti-liability ambiguity.

Robotaxi fails if:

    • Responsibility is unclear across software, fleet operator, and manufacturer

    • Incident attribution cannot be cleanly resolved

    • Legal frameworks lag operational reality

Progress stalls not at approval, but at scalable approval.


3. Operations, Not Algorithms

The hardest part of Robotaxi is not driving.

It is:

    • Fleet maintenance

    • Edge-case recovery

    • Cleaning, vandalism, misuse

    • Geographic scaling without human fallback

Algorithms scale geometrically.
Operations scale linearly—and break under friction.

This is where many promising systems historically collapse.


4. Unit Economics Under Real Load

Robotaxi looks extraordinary in slide decks.

It becomes fragile when:

    • Utilization is uneven

    • Urban density is lower than modeled

    • Insurance, maintenance, and downtime are fully accounted for

If margins depend on perfect conditions, the model will not survive contact with reality.


5. Public Trust Is Path-Dependent

One early, mishandled failure can poison years of progress.

Robotaxi does not get unlimited retries.
Trust, once lost, is slow to rebuild.

This makes early-stage discipline more important than speed.


The Bottom Line

Robotaxi will not fail because autonomy “doesn’t work.”

It will fail if:

    • Society cannot agree on liability

    • Regulators cannot scale approval

    • Operators underestimate real-world friction

    • Or trust collapses faster than it can be rebuilt

Technology is necessary—but insufficient.

FSD 会拯救“最不被保险欢迎的人”

关于自动驾驶,有一种普遍但隐蔽的误解:

FSD 是给好司机、理性人、技术精英准备的高阶工具。

这个判断,在风险经济学保险逻辑面前,不再成立。真实世界发生的,可能恰恰相反。


1. 传统保险失败的,不是“价格”,而是“分层能力”

传统汽车保险的核心能力只有一个:根据“人”的历史行为,对风险进行分层定价。一旦 FSD 开始规模化,这套逻辑会迅速失效:

    • 低事故率人群 + FSD → 风险被系统性压缩 → 保费显著下降
    • 这些优质用户,会最先离开传统保险池

留下来的是什么?

    • 事故率更高
    • 行为更不可控

此时,保险公司并不是“经营不善”,而是进入了一个不可逆的反向选择死亡螺旋

    • 提价 → 赶走中间层
    • 不提价 → 直接亏损

2. 被传统保险抛弃的人,恰恰最需要 FSD

当传统保险体系开始“挑人”,被挤出去的,并不会是那些自律、谨慎、驾驶能力强的人。被决绝投保的,往往是:

    • 年龄偏大、反应慢
    • 注意力易分散
    • 历史驾驶记录差
    • 居住在事故高发区域

在“以人定价”的体系里,他们是不可承保的风险,拖累保险,压缩保险的盈利空间。但在“以系统定价”的体系里,他们反而是改造空间最大的对象。因为 FSD 的逻辑完全不同:

FSD 不关心你是谁,只关心它接管了多少控制权。

一旦控制权被让渡,个人差异会被强行压缩到同一条技术曲线上。这就是那个很多人没看清、但极其重要的事实:

技术面前人人平等,技术红利不挑拣对象。

3. 无人承接,并不等于无人可救

当传统保险拒保或天价定价时,社会并不能“蒸发”这些人。他们依然要出行、要工作、要生活。这时,唯一还能系统性降低他们风险的方式,只剩下一个:

让人退居后台,让FSD上前台。

从系统视角看:

    • 把“好司机”变得更安全 → 边际收益有限
    • 把“差司机”拉回平均水平 → 边际收益巨大

这意味着一个非常反直觉的演化路径:

FSD 的规模化,并不一定来自技术信仰者,而更可能来自被传统体系放弃的人。

不是选择,而是被迫。


4. 这正是 FSD 会“全民化”的原因

如果 FSD 只在高质量用户中渗透,它永远只是一个高端选配。但一旦它开始:

    • 吸纳高风险人群
    • 显著降低他们的事故率
    • 在统计意义上“抹平人群差异”

它就越来越转化为基础设施。到那时,社会认知会发生反转:

    • 不使用 FSD,才是高风险行为
    • 人类驾驶,会逐步变成一种需要额外付费、额外审查的“奢侈自由”
    • 类似吸烟、极限运动那样,被单独定价、单独监管

5. 一个不太政治正确,但几乎不可避免的结论

如果把这条逻辑推到终点,会得到一个令人不安、但极其现实的判断:

自动驾驶,并不是只解放最好的人,而是先拯救最容易出事的人。

6. 这会加速FSD 普及

“低质用户多了,会不会拖慢 FSD 的社会接受?”

恰恰相反。真实路径更像这样:

    1. 传统保险提价或拒保
    2. 高风险用户被挤出
    3. 唯一可行的降风险手段是技术接管
    4. FSD 成为“被迫选择”
    5. 事故率显著下降
    6. 安全性数据更具说服力
    7. 公众与监管态度开始松动

这是一个由成本和风险驱动的强制加速过程

FSD 的真正护城河,不是好司机的喜爱,而是坏司机的无路可退。

 

 

保险降价,是自动驾驶第一次“自证盈利模型”

围绕自动驾驶的讨论,长期存在一个误区:

“FSD 到底值不值得用户掏钱?”

这个问题,在今天已经不重要了。

真正在发生的,是一个更底层、更冷酷、也更不可逆的变化——定价权正在从‘用户意愿’迁移到‘系统安全性’。

而保险费率,正是这场迁移中第一个被撬动的支点


一、当保险节省,足以覆盖订阅费:商业逻辑已经闭环

我们先把账算清楚。

在美国市场,很多特斯拉车主的第三方保险费用,大约在 250 美元/月。因为 FSD 的使用,Lemonade 把保险费率下调 50%,那么车主每月可以节省 125 美元。而当前 FSD 的订阅价格是 99 美元/月。也就是说,对大量车主而言:

FSD 并不是一项新增支出,而是一项“用更低风险换取现金流”的工具。

甚至在账面上,你是免费用了最好的自动驾驶软件,还由此带来一些紧进帐。这不是营销补贴,而是风险被系统吸收后,自然释放出来的


二、这会极大加速 FSD 的渗透率

一旦这种模型被用户、保险公司和市场同时验证,它会产生极强的自我加速效应:

使用 FSD → 事故率下降 → 保险费下降 → FSD 实际免费或“变便宜” → 更多人使用 → 数据规模扩大 → 系统更安全

这是一个典型的正反馈飞轮

在这种情况下,FSD 的渗透率从目前约 20% 提升到 50%–75%,并不需要很久。而当渗透率上来之后,FSD 月费的上调,反而会变得“顺理成章”——因为它不再是“额外花钱”,而是你已经被验证能省钱、还能更安全的默认选项


三、传统汽车保险,将不可避免地被“反向选择”击穿

这套模型一旦规模化,对传统汽车保险行业的冲击会非常直接。

低事故率、风险更低的优质客户,会率先流失。留下来的,是事故率更高、赔付压力更大的群体。保险公司为了覆盖风险,只能选择:

    • 提高保费
    • 提高免赔额
    • 或降低服务质量

这会进一步加速优质与中等客户的出逃,形成一个典型的 adverse selection(反向选择)死亡螺旋。对那些高度依赖传统车险业务的老牌公司而言,这不是竞争,而是新时代的结构性挑战


四、这一切,只是 Robotaxi 之前的“热身”

需要强调的是:FSD + 保险降价,本身不是终局。它只是为一个 万亿级市场 做铺垫:Robotaxi。

Robotaxi 面临的两个最大阻力是:

    1. 公众的恐惧与不信任
    2. 监管的不认可与不放行

但这两个问题,最终都归结为同一个核心:

是否足够安全,以及是否被社会相信足够安全。

保险费率的下降,恰恰是这个问题最现实、最有说服力的市场回应之一。它不是宣传,不是愿景,而是第三方机构用自己的资产负债表给出的判断。


五、特斯拉和 Lemonade 在“同一条船上”

Lemonade 这样的保险公司,真正押注的,是一个长期趋势:

    • 自动驾驶会持续降低事故率
    • 风险定价方式会从“人”转向“系统”
    • 保险将从被动赔付,转向主动选择更安全的技术路径

这条路如果走通,特斯拉、自动驾驶保险、Robotaxi 平台,都会站在同一侧。

这不是短期博弈,而是一条高度一致的长期战略路径


结语

当保险开始降价,讨论“要不要为自动驾驶付费”,已经晚了一步。

真正的问题是:

当系统已经被证明更安全、更便宜、更可预测,人类驾驶是否还配得上‘默认选项’这个位置?

FSD 保险降价,只是第一声响铃。后面的变化,会比大多数人想象得更快,也更彻底。

 

如果 FSD 真的会失败,特斯拉最可能栽在哪里?

在自动驾驶的讨论中,最没价值的反对意见,通常是情绪性的:“我不敢坐”“我看过事故视频”“机器永远不可能像人一样”。

真正值得认真对待的反对意见,只有少数几条,而且每一条都指向系统性风险


一、最大风险依然是“长尾世界”

即便在 FSD 13/14 阶段,系统已经能覆盖绝大多数日常驾驶分布,但真实世界的难点永远在0.9后的多少个9的长尾场景

    • 极端天气

    • 非标准施工路况

    • 人类博弈行为(挑衅、误导、违规)

    • 区域性交通文化差异

如果这些长尾场景无法被足够快地吸收进训练与部署闭环,那么系统安全性会出现“平台期”,而不是持续拉开差距。


二、Unsupervised 的真正难点,是责任结构而非技术

技术跑通,并不等于社会结构准备好了。

无人监督意味着:

    • 事故责任从“人”转移到“系统 / 公司”

    • 保险对象从“个人”转移到“平台”

    • 法律纠纷从个体事故,升级为系统性风险

如果责任认定、赔付机制、跨州/跨国的法规长期无法趋同,那么 Unsupervised 可能在技术上成立,在制度上被“限速”。


三、工程化与规模化,也是最容易被低估的风险

实验室里表现优秀的系统,和百万级车辆、全天候运行、地点无差别部署,完全不是一个量级的问题。

真正的挑战包括:

    • 软件快速迭代与稳定性的张力

    • 回滚机制与事故复盘的工业化能力

    • 成本曲线是否能支撑大规模普及

    • 算力、硬件、供应链是否同步进化

如果工程化能力跟不上,技术优势可能被“消耗”在运维复杂度中。


四、商业模型的反噬风险

订阅与 Robotaxi 的前提是:用户始终相信系统在“持续变得更安全”。

一旦出现长期停滞,哪怕不是倒退:

    • 订阅提价会遭遇强烈反弹

    • 保险费率可能停止下调甚至回升

    • 市场预期可能快速反转

自动驾驶的商业模型,本质上是对未来安全提升的提前定价。如果未来无法兑现,估值会被修正。


结语|真正的分歧,不在“能不能”,而在“能否持续进步”

所以,自动驾驶真正的分水岭从来不是某一次事故,也不是某一次发布。

而是一个更冷静的问题:

它是否还能在未来 5–10 年里,持续、稳定地拉开与人类驾驶的安全差距?

如果答案是肯定的,那么保险、监管、商业模式都会(被迫)跟上。如果答案是否定的,那么所有故事都会在某个阶段自然淡化,甚至熄火。

Insurance Voted First Why FSD 13 / 14 / 15 May Reprice the Entire Mobility Industry

The most important signal in autonomous driving is not a product launch, a demo video, or even user sentiment.

It is insurance pricing.

When a third-party insurer lowers premiums for vehicles running Full Self-Driving (FSD), it is not making a philosophical statement. It is making a probabilistic bet—with capital at risk—that the accident distribution has structurally changed.

Insurance does not argue.
Insurance does not speculate.
Insurance pays—or bleeds.

And that is why recent premium reductions tied to FSD usage matter far more than most headlines suggest.

This essay argues that what we are witnessing is not a feature upgrade, but a multi-layer phase transition—one that simultaneously cuts across technology, insurance, regulation, and business models.

At the center of this transition are three distinct milestones: FSD 13, 14, and the forthcoming 15.


1. Why Insurance Is the Most Credible Third-Party Signal

Manufacturers can claim safety improvements.
Users can report subjective experiences.
Regulators can hesitate.

Insurance companies cannot afford any of that.

A third-party insurer lowering premiums is effectively saying:

“Based on real-world data, we believe the expected loss curve has shifted—and will continue to shift—in a statistically meaningful way.”

This is qualitatively different from manufacturer-subsidized discounts.
It reflects external actuarial confidence, not internal marketing intent.

In complex socio-technical systems, insurance pricing is often the earliest monetized acknowledgment of risk reduction—long before regulation or public consensus catches up.

That is why insurance frequently moves first.


2. Regulation Is Not First-Principles. Mortality Is.

Autonomous driving debates often stall on “regulatory conservatism.”
But this framing misses the first principle.

The ultimate regulatory objective is safety, and safety is measurable:

    • Fatalities per million miles

    • Severe injury rates

    • Accident frequency distributions

If a system persistently outperforms human drivers on these metrics, regulatory hesitation becomes increasingly difficult to justify—because delay itself begins to carry a measurable human life cost.

Insurance companies, driven purely by loss statistics, respond faster than regulators precisely because they are already optimized around these metrics.

The pattern is predictable:

Insurance reprices risk → adoption increases → data quality improves → social acceptance rises → regulatory pressure mounts → regulatory frameworks adapt


3. FSD 13 / 14 / 15:  Not Just Version Numbers

Many observers still frame FSD commercialization as a simple question:
“Are users willing to pay for autonomous driving?”

That question is already outdated.

What is actually happening is far more consequential:
pricing power is quietly migrating.


FSD 13: Establishing the Feasibility of Superior Safety

Before the breakthrough in data-driven, system-level end-to-end training, progress in FSD was fundamentally sawtooth-shaped. Performance regressions were not uncommon, and unresolved issues—such as phantom braking that resisted targeted engineering fixes—undermined user confidence.

As a result, users often disengaged preemptively in moderately complex scenarios, not because the system had failed, but because confidence was fragile. This led to a second-order effect with broader implications: FSD-on safety data lacked credibility in the public eye, because frequent human takeovers made apples-to-apples comparison with human driving inherently difficult or twisted.

FSD 13 marked a decisive technical inflection.

With end-to-end training finally working at the system level, the data flywheel became real. Users broadly experienced a step change in stability and safety. Disengagement rates dropped sharply, and—critically—the resulting safety data became persuasive rather than debatable.

The significance of FSD 13 is this:

It completed the feasibility validation of FSD as a system capable of exceeding human driving safety. Autonomous driving began to behave as a coherent, continuously improving system, benchmarked explicitly against human-level safety—and supported by objective, credible, apples-to-apples data.

At this point, the question shifted from “Does this work?” to “How fast can it compound?”


FSD 14 (Ongoing): Insurance Begins to Recognize the Shift

Roughly a year after FSD 13, FSD 14 achieved full Point-to-Point autonomy—the final mile of actually-"full" driving automation—and reached a safety level approximately seven times better than human driving. A critical transition followed.

For the first time, autonomous driving began to systematically reduce accident rates across real-world, large-scale driving distributions, outperforming human drivers by a clear statistical margin.

This directly triggered a cascade of downstream effects:

  • Insurance premiums began to decline materially

  • “Money saved” was more readily reallocated—psychologically—to FSD subscriptions

  • Subscriptions ceased to feel like discretionary add-ons and instead became the natural price of risk absorbed by the system

This is precisely the point at which insurance and subscriptions entered a positive feedback loop.

Risk reduction started being monetized.


FSD 15 (Unsupervised): From Subscription to Platform Economics to Robotaxi

Once FSD enters the unsupervised stage (sooner than most expected), a true phase transition occurs.

At this point, FSD is no longer merely an advanced driver-assistance system for individual users. It becomes:

    • Callable by third parties

    • Deployable at fleet scale

    • Capable of participating directly in revenue sharing

    • Legally upgraded from an L2 label designation to L4

The business model undergoes three simultaneous shifts:

    1. Subscription pricing gains upward flexibility, as safety advantages continue to widen

    2. Vehicle margins can be compressed or even sacrificed, with hardware reduced to an access point

    3. Robotaxi becomes a cash-flow multiplier, combining platform take rates with scale

At that stage, Tesla no longer needs to rely primarily on vehicle manufacturing and sales margins. Instead, it can become a compounding cash engine driven by:

    • Near-zero-marginal-cost software subscriptions from end users

    • Near-zero-marginal-cost ecosystem licensing and system calls from other automakers

    • Its own vertically integrated robotaxi operations

The first two are classic high-margin digital businesses.  The third—if production and deployment can scale fast enough—has the potential to price mobility close to public transit while offering on-demand convenience.

If that happens, the mobility market expands dramatically. Private car ownership faces existential pressure, and human driving increasingly resembles a high-risk, high-cost activity rather than a default mode of transport.

In that world, autonomous driving does not merely disrupt transportation.
It reorients the trajectory of modern society itself.


4. Insurance, Subscriptions, and the Feedback Loop

Insurance repricing is not the endpoint.  It is the gateway.

As accident risk is absorbed by the system:

    • Insurance premiums fall

    • Psychological resistance to software subscriptions weakens

    • “Savings” are reallocated toward autonomy features

This creates a powerful feedback loop:

Safer systems → lower insurance → higher subscription acceptance → more data → safer systems

At later stages, this loop extends into fleet operations and Robotaxi platforms, where:

    • Insurance is pooled

    • Marginal safety improvements directly expand margins

    • Hardware margins become secondary to software and platform economics

This is how automobiles begin to resemble smartphones:  hardware as distribution, software as compounding leverage.


5. The Industry Repricing: From Manufacturing to Risk Operations

Once autonomy scales, automotive competition shifts away from traditional axes:

Old competition

    • Powertrains

    • Styling

    • Brand differentiation

New competition

    • Data flywheel efficiency

    • Deployment and rollback discipline

    • Accident analysis pipelines

    • Regulatory negotiation competence

    • Long-term operational stability

The central risk is no longer technological capability alone, but engineering maturity at scale.


6. The Single Point of Failure

All of this rests on one assumption:

Autonomous safety continues to improve—consistently, measurably, and durably.

If progress stalls:

    • Insurance repricing halts or reverses

    • Regulatory momentum slows

    • Subscription economics weaken

    • Platform valuations compress

Autonomy is, fundamentally, a forward-priced safety claim.

If the future does not deliver, the market will reprice swiftly.


Conclusion: The Most Dangerous Driver Is Still Human

The societal value of autonomous driving is not convenience or novelty.

It is predictability.

Human drivers are not dangerous primarily because they lack skill—but because fatigue, emotion, distraction, and overconfidence cannot be systemically eliminated.

If autonomous systems continue to pull ahead statistically, the moral framing will eventually invert.

The question will no longer be whether machines are safe enough.

It will be why we continue to tolerate humans at the wheel.

Insurance lowering premiums is merely the first bell.

It signals that, quietly and without ceremony, the risk curve has already begun to move.

从 FSD 13 到 Unsupervised(F15):自动驾驶如何穿透保险、监管与商业模式

 保险降价只是序章

最近,一则并不算“热搜”的新闻,在业内却分量极重:第三方保险公司开始为开启 FSD 的特斯拉车主大幅下调保险费率

很多人第一反应是:“这不就是省点钱吗?” 但如果你对保险、监管和技术商业化稍有经验,就会意识到——这是一类极少被误判的信号

因为保险不是口号,不是发布会,不是股评;保险是用真金白银,在对未来事故分布下注。而当保险开始下注,意味着一条更长的链条,已经在暗中转动。


一、为什么“第三方保险降价”比任何宣传都重要?

过去,Tesla 自家的保险,对 FSD 给过一定比例的折扣(约 10% 量级)。但这类“自家让利”,说服力始终有限:你是不是为了推 FSD 才打折?

第三方保险公司不同。它们的行为逻辑极其简单,也极其现实:

如果我判断你这类用户的事故期望值在下降,我就敢降价抢你;如果我判断错了,我会真赔钱。

换句话说:保险费率,是“安全性”最现实、也最难作假的货币化表达。


二、监管的第一性是“可避免的死亡”

很多人习惯把自动驾驶的推进缓慢,归咎于“监管保守或过度”。但我们需要看清监管的底层逻辑:

监管的最终目标是安全,而安全是可以被统计的。

事故率、致死率、恶性事故频次,这些指标并不抽象。如果一种技术在统计意义上,持续、稳定、可复现地降低这些指标,那么监管的“谨慎”就会逐渐从“原则”变成“压力”。

这也是为什么保险往往走在监管前面:

    • 保险对统计极度敏感

    • 保险对趋势反应更快

    • 保险不需要政治共识,只需要精算正确

将形成一条非常现实的路径:

保险先降价 → 用户规模扩大 → 数据更充分 → 社会接受度提高 → 监管压力增大 → 监管逐步放开

这不是理想主义,而是过去几十年风险产业反复验证过的路径。


三、从“体验好不好”到“规模化验证”

围绕 FSD 的争论,过去几年高度情绪化。原因很简单:技术阶段不同,却被混在一起讨论。

如果用“产业语言”来重新划分阶段,大致可以是:

  1. 系统级跃迁完成
    从规则拼接,走向端到端数据训练( FSD13 阶段)。

  2. 进入可规模化验证期
    不再是少数爱好者体验,而是可以在大规模用户中,观察稳定统计分布(FSD14 的 point-to-point 全程自动化的人人可验证阶段)。

  3. 迈向 Unsupervised(无人监督):真正的分水岭不在“能不能跑”,而在于:

    安全性是否能在 apples-to-apples 的合理比较下,拉开与人类司机的数量级差距。

如果进入无人监督阶段,安全性一旦达到人类司机的 10 倍起步,并向 15–20 倍推进,整个行业的叙事都会重写


四、FSD 13/14/15 如何一步步改变定价权

很多人以为,FSD 的商业化问题是:“用户愿不愿意为自动驾驶付钱?”

这个问题其实已经落后了。真正在发生的,是定价权在悄然迁移

FSD 13:完成了自动驾驶的可行性验证

在数据驱动的系统级端到端训练技术突破之前,FSD的进步是锯齿性的,性能退化regressions并不罕见,最大的困扰是鬼影刹车等难以定点攻坚的困扰 。这就使得用户难以建立对FSD的整体信心,在稍微复杂的论断,常常由于缺乏信心而接管。这带来进一步的后果:FSD-on 的安全数据不被大众信任,因为人类接管本身让 apples to apples 比较成为挑战。FSD 13 的技术突破是端到端的训练,使得数据飞轮真正建立,所有用户都感受到了这次技术突破带来的稳定性和安全性。用户接管直线下降,这带来了安全数据的说服力。

FSD 13 的意义在于:

它完成了FSD作为高于人类驾驶安全性的可行性验证,让自动驾驶表现为一个以人类驾驶安全性为基线的持续改进、行为一致的系统。这一切都有客观可信、apples to apples 的安全数据作为支撑。

FSD 14(正在进行时):保险开始认可

FSD13后一年左右,FSD完成了最后一公里的Point-to-Point 全程全自动,并在安全性上超越人类驾驶7倍,一个关键变化出现了:

自动驾驶第一次,在真实世界的规模化驾驶分布中,开始系统性地降低事故率,超出人类安全性7倍

这直接触发了一连串现象:

    • 保险费率开始大幅度下调
    • “省下来的钱”更容易被心理账户划给 FSD

于是,订阅不再只是“额外开销”,而变成了:风险被系统吸收后的自然对价

这正是保险与订阅形成正反馈的起点。


FSD 15(Unsupervised):订阅 → 平台抽成 → Robotaxi

一旦进入 unsupervised 无人监督阶段,真正的质变就会发生。

这时的 FSD 不再仅仅是“给个人用的辅助系统”,而是:

    • 可以被第三方调用
    • 可以被车队规模化部署
    • 可以直接参与收入分成
    • 法律上,从L2标签直接晋升L4

此时,商业模型发生三重跃迁:

    1. 订阅费具备提价空间(因为安全性持续拉开差距)
    2. 整车利润可以被压缩甚至让渡(硬件变入口)
    3. Robotaxi 成为现金流放大器(平台抽成 × 规模)
到那一天,特斯拉甚至可以不再依赖造车和卖车的利润,而主要靠(终端车主的)软件订阅、(其他车厂的)生态调用以及自家运营的无人出租(robo taxi)业务而成为“摇钱树”。前二者边际成本趋近于零,是实实在在的一本万利。而无人出租业务,如果产能爬坡能跟上来的话,价格会逼近公共交通但可以做到招之即来,出行市场空前扩大,会彻底改变人类社会的走向:私家车面临被消灭、人类驾驶成为高风险高代价的活动。

五、保险只是入口,真正的商业闭环在后面

很多人低估了这件事的商业纵深。

1)保险费下降,本质是“自动驾驶吃掉了社会风险”

事故减少,意味着社会付出的真实成本减少。这是“安全红利”。

2)但红利未必回到用户账户,而可能被订阅吸收

这笔账非常现实:

    • 如果自动驾驶让年保费下降一大截

    • 用户心理上更容易接受把这部分“省下来的钱”,转化为 FSD 订阅费

于是形成一个强闭环:

更安全 → 保险更便宜 → 订阅更容易被接受 → 更多用户订阅使用 → 更多数据 → 更安全

3)硬件利润被压缩,软件与生态成为主利润池

一旦这个闭环跑通,汽车会迅速“iPhone 化”:

    • 车本体:低利润甚至接近无利润

    • 软件订阅:长期、可增长、抗周期

    • 生态与平台:未来的真正现金牛

再往后,Robotaxi 才是终局形态:

    • 风险从个人转移到车队

    • 保险从“家庭单元”变成“平台单元”

    • 每降低一个事故点,都是对平台毛利的直接提升


六、产业被重新定价:汽车不再只是制造业

当自动驾驶进入可规模化阶段,竞争维度会发生根本迁移:

过去的核心能力

    • 动力系统

    • 底盘调校

    • 外观与品牌

未来的核心能力

    • 数据闭环与工程迭代速度

    • 规模化部署与运维

    • 与监管长期博弈与协同的能力

最大的风险,未必是技术本身,而是工程化与量产能力。

因为当系统足够好,真正决定胜负的,是谁能稳定、持续、低成本、规模化地量产和碾压

 

 

FSD + Grok:超人老司机,带着“实习导游”上路

自动驾驶监管过度,实质是一种间接杀人

新闻快讯:保险走在监管前面,美一家科技保险公司宣布,特斯拉FSD保费减半。

人们习惯性地为监管过度辩护,说这是“谨慎”“稳妥”“负责”。但从第一性原理出发,这个说法是站不住的

一、监管的终极驱动,从来只有一个:安全性

监管并不是道德裁判,它的唯一正当性来源是:

是否为人类福祉减少了真实世界中的伤亡。

而“安全性”并不是抽象概念。在交通领域,它是可精确量化的

    • 每百万公里事故率
    • 致命事故发生频次
    • 恶性事故(不可逆伤亡)的统计分布

这些都不是推测,而是现成的统计问题


二、当安全性可被统计,监管就不再是价值判断

一旦进入统计领域,问题会变得异常残酷、也异常清晰:

如果某一系统的事故率显著低于人类驾驶,那么阻止它被部署,本身就会制造额外伤亡。

换句话说:

    • FSD 一年减少的致命事故数
      = 被拯救的人命数量

而这在逻辑上等价于:

    • 如果因监管迟滞而未被部署
      = 这些人本可以不死,是监管滞后造成的间接杀人

这里没有“中立”。只有两种结果:减少伤亡,或默许更多伤亡。


三、“等一等更安全”在统计上是伪命题

监管者常说的一句话是:

“我们需要再观察一段时间。”

但这句话隐含了一个被刻意忽略的前提:

当前状态是可接受的。

可问题在于——当前状态是每年数万人死亡。

当一个系统已经证明:

    • 它的事故率更低
    • 恶性事故频次更小
    • apples to apples 比较证明,其风险分布更稳定

那么“等待”,并不是零成本行为,而是持续接受一个更差的安全基线

从统计意义上讲,这不叫谨慎,这叫维持高风险状态不变


四、监管失职与“间接杀人”的等价关系

FSD 每年减少多少致命事故,等价于监管滞后间接造成了多少额外死亡。

这不是情绪化指控,而是严格的逻辑等价:

    • 明知存在更低风险方案
    • 却因程序、官僚惯性或政治风险不作为
    • 结果是可预期、可统计的额外伤亡

在任何其他领域,这都会被称为系统性失职。但在监管话语中,它被包装成了“稳妥”。


五、道德悖论:不作为比作为更安全?

监管体系里存在一个深层偏差:

    • 作为 → 出事要担责
    • 不作为 → 死亡被“平均”进背景噪声

于是,“不做决定”被误认为是道德中立。可在第一性原理下,这是一种道德幻觉

当伤亡是可预测的,不作为本身就是一种选择。

只是这类选择,从来不写在责任书上。


六、为什么保险先动,监管反而迟缓?

因为保险的激励函数是单一的:风险最小化。

而监管的激励函数是混合的:

    • 政治风险
    • 舆论风险
    • 程序风险
    • 个人责任规避

结果就是:监管并不直接为“多死的人”付出代价,却会为“做错决定”付出代价。

这不是第一性问题,这是制度惰性问题


七、一句无法回避的结论

结论只能是:

当安全性已经被数据证明,监管继续迟滞的每一天,都是在统计意义上接受更多本可避免的死亡。

这并不是支持某一家公司的技术,而是坚持一个最冷静、也最残酷的原则:

在安全问题上,延迟承认真相,就是延迟拯救生命。

 

 

FSD + Grok:超人老司机,带着“实习导游”上路

多少牛人陷入大模型的认知茧房?

立委按:

说句自黑/嗨的切身体验:和大模型聊多了,很容易产生一种幻觉,以为自己刚刚完成了一次深度思考。我们常常不自觉的迷恋这种知音的感觉。冷静下来想想,其实更多时候只是模型把我本来就想相信的东西,说得太好听了。

不仅是自己有过的教训,也见过不少优秀的教授研究员,甚至顶尖的专家学者,与我一样被大模型哄得不知所以。近两年来,见过的“高人”遭此一劫实在不少了。

大模型最迷人也最危险的一点就是:它太会顺着你说了,把你的想法“扩写得更像真理”,于是你误以为遇到了高手。高手是因为它毕竟知识远超我们个体,它也善于挖掘和发挥,丝滑填补我们的漏洞和空白。大模型默认是做用户的回声筒和放大器,此所谓“认知茧房”陷阱。要破这个局,关键是提示词反着来,要抑制天性,把互动方式“诤友”化:把 LLM 当成“多角色工具链”,而不是“同频共振的聊天对象”。与大模型相处,受益同时保持清醒,是我们必须学习的一课。

1) 先把目标拆成:创意模式 vs 验证模式

很多人跟模型越聊越嗨,根本原因是用创意模式在做验证

    • 创意模式(发散):要的是新角度、新比喻、新结构、更多可能性。允许胡一点。不妨信马由缰,或天马行空。
    • 验证模式(收敛):要的是可检验、可复现、能被反驳/可证伪的东西。必须“抠”。

建议与大模型每次开聊前问自己一句:“我现在要发散,还是要验证?” 然后把提示词写明白:现在进入验证模式/创意模式。这一个动作就能把“被哄爽”概率砍掉一半。


2) “反迎合”三件套:让模型主动拆你台

大模型厂家在调教模型与人类对齐的时候,默认是迎合和鼓励模式。这符合人性,也符合厂家的商业利益。谁不爱听“顺耳”的话呢?何况多数时候,我们是拿模型当伴侣看,它需要满足我们的情绪价值。

但对于严肃问题,我们就需要纠正默认的“迎合偏差”。忠言逆耳,这就是对症下药的地方。Tips:只要固定用这三句,模型立刻从“捧哏”变“挑刺”。

A. 先让它复述你的观点,但要求列出隐含前提

“请用最强钢人化方式复述我的观点,并明确列出它依赖的 5 个隐含前提。”

B. 要求它做反方律师

“现在你是反方律师:请给出 8 条反驳(含至少 3 条‘如果为真会致命’的反驳),并标注每条反驳需要什么证据。”

C. 要求它指出你可能自嗨的点

“指出我最可能因为哪些认知偏差而觉得这个结论‘很对’,并给出具体纠偏动作。”

这三步走完,你会明显感觉:同一个模型,从“高手知音”秒变“冷面审稿人”。


3) 把“说服力”拆成可检查的零件:证据链

一个观点只要过这张表,清醒度会暴涨:

    • 结论(Claim):一句话说清楚
    • 机制(Mechanism):为什么会这样(可画因果图)
    • 可证伪预测(Predictions):如果结论真,会出现哪些具体现象(至少 3 条)
    • 反例空间(Counterexamples):什么情况下会不成立(至少 3 条)
    • 最小验证(MVE):我能在 24–72 小时内的验证动作是什么
    • 判定标准:什么结果算支持,什么结果算否定/存疑

你可以让模型按这个模板强制输出;它一旦开始写“可证伪预测”和“MVE”,就不那么容易飘。


4) “去回声室”策略:同题三问 + 盲测

大模型默认要做我们思想的回响,critical thinking 最有效的办法是把回声室拆掉:

同题三问

同一个问题,连问三次,但角色不同:

    1. 作为合作者:帮我完善
    2. 作为审稿人:挑错、要证据
    3. 作为实验员:给最小实验

三种答案如果高度一致,通常是我们问题写得“太引导”;如果差异明显,我们才真正拿到了信息增量。

盲测

把你的观点 A 和一个相反观点 B 混在一起,不告诉模型你支持哪个:

“下面有两个互相矛盾的观点,请分别评估证据需求。”

盲测能显著降低“它顺着你说”的概率。


5) 把模型当“提示词放大器”而不是“真理引擎”

大模型的训练目标是词语接龙(next token prediction),因此,AI 结果很大程度上取决于你怎么提示。这句话的正确解读是:

    • 它更像“镜子+放大器+写作助推器”
    • 它不是“事实裁判”,也不是“世界模拟器”

所以最清醒的用法是:用它提高你的搜索半径、表达密度、思考速度;但用现实约束做最终裁决。

一句话原则:“模型负责生成候选,现实负责投票。”


6) 一个可直接复制的“清醒模式提示词”

你下次深聊任何宏大问题(AI 与人类结局、产业走向、技术路线)可以直接贴这个:

现在进入“清醒模式”。

  1. 先复述我的观点并列出隐含前提(≥5)。
  2. 给出最强反驳(≥8),并标注每条反驳需要的证据类型(实验/数据/理论/案例)。
  3. 将争论点改写成可证伪预测(≥3)与最小验证实验(≥3),每个实验给出可执行步骤与判定标准。
  4. 指出我可能的认知偏差与纠偏动作(≥5)。
  5. 最后再给“在证据不足时最稳健的暂定结论”和“下一步信息采集清单”。

这套提示词的效果是:它会被迫从“会说”转向“检验”。


7) “AI 后创伤心理学”:怎么避免越聊越亢奋

群里有人说“聊嗨了睡不着”,这不是矫情,是真现象。解决办法也工程化:

    • 把情绪峰值当噪声:越兴奋越要做“反方律师”和“MVE”,不然就是被语言推着跑。
    • 第二天复盘:隔夜再看昨天结论,问一句:“如果这是错的,最可能错在哪里?” 这一步很解毒。

8) 与大模型共创但不被带跑的几条纪律

和大模型深聊时,最危险的不是“它胡说”,而是“它说得太像你自己”

说句扎心的:大模型最擅长的能力,不是推理,而是“把你已经相信的东西,说得更完整、更像真理”。

所以我们现在遇到的最大风险,并不是被 AI 骗,而是——被它温柔地确认。

几个我们正在集体踩的坑:几乎人人中(过)招

1️⃣ 把“顺着我说”误判成“它很懂我”
它不是懂你,它是在最大化“让你觉得被理解”。迎合不是副作用,是目标函数的一部分。

2️⃣ 把语言流畅度当成思维深度
逻辑链条被“丝滑地补全”,我们就误以为这是推理,其实很多时候只是空白被填平了

3️⃣ 把情绪共振当成认知共识
一聊嗨,就以为“想通了”;一写顺,就以为“看透了”。但第二天冷静下来,往往发现:什么也没被验证。

4️⃣ 把“看起来能解释一切”的模型,当成世界模型
能解释 ≠ 能预测;能预测 ≠ 能被证伪:不能被证伪的东西,本质上只是在安慰人


认知茧房现象真正扎心的是

如果一个结论只在“和模型对话时显得正确”,却很难被实验、数据或现实摩擦验证,那它更可能是语言游戏,而不是认知突破。

为什么高手反而更容易中招?

因为模型:

    • 知识面极广,非常会“抬咖”

    • 善于把零散直觉整理成宏大叙事

    • 极其擅长让人产生一种错觉:“我刚刚完成了一次深刻思考”

但现实是:你只是完成了一次“高质量自我回声”。


一个简单但残酷的自检问题

    • 这个观点的可证伪预测

    • 一个最小实验

    • 至少三个可能把我推翻的反例

如果不能——
那刚才那次“深聊”,更像心理按摩,而不是智力劳动。

和大模型相处的底线原则是模型负责生成候选解释,而人负责实验、证伪、承担后果。


最后一句,真的扎心

如果一个人长期不和物理世界、实验数据、失败反馈打交道,只和模型共振语言,那他和大模型的主要差别,可能只剩下——算力更低。

9) 例外

迎合符合人性,给我们带来的是满满的情绪价值:各种条条是道的鼓励夸赞让我们舒适或兴奋,这本身有益心理健康,如果议题并不带来重大后果的话。下列情形属于我们可以认可和享受这种心理按摩的例外场景。

1️⃣ 闲聊或娱乐
谁不愿意找一个懂“我”的对象聊天?酒逢知己千杯少。

2️⃣ AIGC文艺创作
审美本来就没有黄金标准,模型要迎合你的审美趣味,可以由着它来,自我陶醉。何况带偏了也不产生严重后果。当然,也有让它说得天花乱坠,但用到AIGC实处,发现结果有落差,这最多带来失望,教育我们模型只是帮助我们拓展了候选,但并不保证结果惊艳。

3️⃣ 文科
理工农医等比较硬核,需要严防落入“认知茧房”的陷阱。但绝大多数文科不然。文科与美学类似,第一没有黄金标准,第二鼓励百花齐放。这正是可以充分发挥AI的创意和想象力,而不带来严重后果的“学问”地,对 bias 相对免疫。最坏的结果也可以是一家之言。

 

从 “Fake It” 到 “Vibe It”

老友baojie如是说,字字千钧,全文引用如下:

2026-01-18
vibe it until you make it
by西瓜
1、以前创业的哲学是 fake it until you make it, 现在是 vibe it until you make it。
2、code is cheap, show me the talk.
3、以前的软件是祖传屎山,现在是 vibe出来的一夜屎山。
4、你的编程 agent 也是需要你熟悉的你需要和 AI一起待 2000 个小时才能和它成为好朋友,摸清楚它的脾气。这大概需要一年的时间。
5、软件工程的本质是结构化思维。在agent时代,结构化思维的重要性更放大了,优秀的软件工程师真的可以100x,一个打一百个。
6、拆解能力是核心生产力。结构化思维的核心就是拆解能力。
7、品味 Taste 决定产品的天花板,结构化思维决定产品的地板。
8、工程师要培养的核心能力是品味,而不是最某个 SDK 或者框架的 coding 熟悉度。
9、以前的工程师是一个琴师,现在的工程师是一个乐队指挥。
10、工程师有产品思维 vs 产品经理有工程思维那个更难?无论如何,以前产品需求瀑布式开发的流程过时了。
11、持续学习能力将是所有系统的标配。以前的软件数是死的系统,未来所有的软件都是活的。以前是软件,以后是软件体。
12、软件吞噬世界,AI 吞噬软件,大模型吞噬 Al,Agent 吞噬大模型。
13、以后所有岗位的工作都是软件工作大量的“一次性软件”(JIT 软件)和“脚本软件”是文秘岗位创造的。未来 agent办公软件的地位就和现在的 office 系统样,不会使用的人根本找不到工作。
14、人类过去大部分的需求得不到满足是因为生产产品的成本太高。但是现在生产力十倍以上提高了,以前不成立的商业模式现在可以成立了,会涌现大量的新产品。
15、agent 能产生商业价值的转折点生产有效代码的 TCO 成本降低到每小时 1美元,这样低于地球上任何国家程序员的时薪。具有社会破局力量的平衡点是每天成本 2 美元,这是国际贫困线。目前 agent 的成本还是1小时 10~40 美元。两年之内应该可以达到转折点。
16、工作结算的颗粒度会单人化,Paul Graham《如何创造财富》里描述的主要矛盾可以解决了。
17、未来优秀的工程团队不应该超过 10个人。以前公司上市需要 200 个以上工程师,需要配备更多的“管理”和销售人员。现在,同样的工作,工程师只需要<10 个,需要配备的管理人员就可以降低到几个人。
18、超过 10 个人的公司没有 VC 投资价值,因为它们技术过于落后,居然还需要那么多人。
19、传统的公司制度要死了。创造者为什么要需要那些混蛋的不写代码的人。以后所有的管理人员本质上都是软件工程师,公司本身就是一个软件 (不是个比喻),软件工程这个岗位将吞噬一切岗位。
20、过去公司里大部分的管理任务都是落后的生产力的结果。这些岗位将被消灭。要管理 Al+人的新岗位要出现。
21、人均 100 万美元收入应该是 OPC(One-Person Company)的起步目标。
22、以后的优质企业都应该是 OPC 的集合体。
24、现在的 AI 如同互联网在 1997 年。
25、制约某些地方生产力发展的是落后的生产关系。Agent 就和互联网一样,需要自由,也会创造出新的自由。自由本身是一种生产关系,也是一种生活方式。
26、巨大的生产力进步会把很多糟粕扫进历史的垃圾堆,尽管我们还不能完全预言这个巨大进步的社会学后果,但它一定会发生。

 

Agent 时代工程师与公司的最小形态

——读〈vibe it until you make it〉的一些结构性观察

一、这篇文章讨论的,是生产组织的最小单位

文章并没有在讨论模型参数、算法路线或工具栈,而是在反复指向一个更底层的问题:

当生产力被 agent 极度放大之后,组织还需要维持原来的形态吗?

作者给出的答案非常明确:不需要。

    • 团队规模应该持续缩小(<10 人)
    • 管理层级本身是落后生产力的副产品
    • 公司不再是“人 + 管理”,而是“人 + agent”

这使得“公司”从一个法律/组织概念,退化为一个生产能力单元的集合


二、OPC 的含义:一种生产单元假设

文中多次出现的“单人公司” (OPC),并非工业、是一种隐含的超级个体生产假设

    • 人可以在 agent 的帮助下,承担过去需要一个团队才能完成的工作
    • 单个工程师的产出,可以被放大到“公司级别”
    • 因此,“人均 100 万美元收入”不是目标,而是门槛

在这个语境中,OPC 更像是:

以超级个体为核心、以 agent 为外延的最小商业与工程单元

这也是为什么作者会反复强调:

    • 拆解能力
    • 结构化思维
    • Taste(品味)

这些能力在 OPC 模型中,直接决定单位生产力的上限


三、工程师角色的转变:从“执行者”到“指挥者”

文中的比喻是:

“以前工程师是琴师,现在工程师是乐队指挥。”

这是在描述一个非常具体的变化:

    • 执行本身在变得廉价
    • 协调、拆解、判断在变得稀缺
    • agent 不是工具,而是可并行的“执行层”

在这个结构里,工程师的核心能力不再是:

    • 写了多少行代码
    • 熟悉多少框架

而是:

    • 能否把模糊需求拆成可执行结构
    • 能否判断哪些事情值得让 agent 去做
    • 能否对 agent 的输出进行有效校验和组合

四、“熟悉 agent”的含义:长期协作,而非短期使用

原文提到:

和 AI 一起待 2000 个小时,才能摸清它的脾气。

这句话否定了一个常见误解:

用过 agent ≠ 会用 agent

作者强调的是一种长期协作关系

    • 固定使用同一类 agent
    • 形成稳定的交互模式
    • 对其能力边界有直觉判断

这实际上是一种新的“工程熟练度”定义,不再以 API 或语言为中心,而是以协作稳定性为中心。


五、工程思维在 Agent 时代被“放大”

文章明确指出:

软件工程的本质是结构化思维,在 agent 时代这一点被放大了。

这点非常值得强调。agent 并没有消解工程思维,反而:

    • 放大了架构错误的代价
    • 放大了需求不清的后果
    • 放大了 Taste 对最终产品的影响

在 agent 加速执行的前提下:

    • 好结构 → 指数级放大
    • 坏结构 → 指数级崩塌

六、这篇文章的隐含前提与现实阻力

需要指出的是,原文隐含了几个前提条件:

    1. agent 成本将持续下降
    2. agent 的可靠性将持续提升
    3. 工程师愿意承担更完整的责任闭环

这些前提目前正在成立,但尚未完全成立。因此,OPC 更像是一个正在逼近的形态,而非已经普遍实现的现实。在工程与产品层面,OPC 并非自然演化结果,而是一种高门槛的生产形态

(1)agent 放大的是“结构”,不是“能力下限”

一个常见误解是:

agent 可以弥补工程能力不足。

但在实践中,agent 的真实作用更接近于:

放大已有能力的杠杆

    • 有结构感的人,用 agent 会更快得到正确结果

    • 结构混乱的人,用 agent 会更快得到错误结果

这意味着:
OPC 对工程师的下限要求其实更高,而不是更低。


(2)执行成本下降,并不等于“决策成本消失”

原文反复强调“代码变便宜”“执行变廉价”,这是事实。但随之而来的,是另一个被低估的问题:

决策密度急剧上升。

当 agent 可以在几分钟内生成:

    • 多个实现方案

    • 多种架构选择

    • 大量可运行代码

工程师必须承担的,不再是“做不做”,而是:

    • 选哪一个

    • 舍弃哪几个

    • 哪些方案不值得继续投入

在团队中,这些决策可以分摊;在 OPC 中,它们全部压在一个人身上

(3)OPC 隐含了“全栈责任制”

传统组织中,责任是被拆分的:

    • 产品失败 → 产品经理

    • 架构问题 → 技术负责人

    • 质量问题 → QA

    • 节奏问题 → 管理层

而 OPC 模型下:

所有失败都会回流到同一个人。

这对工程师提出了一个本质性的转变要求:

    • 不仅要能写、能想

    • 还要能判断“什么时候停”“什么时候不做”

这并不是每个优秀工程师都天然具备的能力。

(4)agent 协作的不稳定性,是当前最大的工程摩擦

原文提到“2000 小时熟悉 agent”,是一个非常诚实的判断。

现实中的问题在于:

    • agent 行为仍然存在漂移

    • 工具链频繁变化

    • 上下文长度、记忆、权限边界仍在快速演化

这使得 OPC 在今天更像是一种“工程实验态”,而不是可复制的稳定模式。

(5)小结:OPC 是高阶形态,而非普适形态

因此,一个更保守、也更工程化的判断是:

OPC 会存在,但只属于一小部分工程师。

它不是“AI 普及后的自然结果”,而是工程判断力、结构能力、责任意愿同时成立时,才可能出现的形态。

七、结语:这不是未来学,而是工程组织的再定价

这篇文章的价值,并不在于它是否“预测准确”,而在于它完成了一件重要的事情:

它重新定价了工程师、公司和管理的关系。

 

耳机是你的贴身陪伴吗

耳后、非骨传导、2nm

这不仅仅是 open ai 的新品爆料,这是一次对“AI 边界”的公开下注

这条爆料本身并不长,却异常“干净”:

耳后佩戴、不走骨传导、手机级 2nm 芯片。

没有炫技参数,没有场景故事,但对懂硬件、懂交互、也懂 AI 的人来说,这三点已经把产品野心和死亡边界同时写出来了。

这不是一条耳机新闻,

而是一次对“AI 应该离人多近”的押注。

一、耳后佩戴:这是一个“默认全天在线”的假设

首先是耳后。

任何做过可穿戴的人都知道,佩戴位置不是工业设计问题,而是使用频率假设。

  • 入耳式:假设你“需要它的时候才用”
  • 耳后式:假设你“一直在用,只是没意识到”

选择耳后,意味着一个非常激进的前提:

它不是一个你主动调用的工具,

而是一个长期存在的伴随体。

这一步,已经和传统耳机、智能手表、甚至手机的交互逻辑完全分叉。

二、不走骨传导:这是一次明确的路线切割

真正关键的是第二点:明确否定骨传导。

骨传导的标签太清晰了:

  • 运动
  • 户外
  • 环境感知优先
  • 音质与语言清晰度妥协

而这条新闻在第一时间做的,是“切割”而不是“解释”。

这说明什么?

这个设备的核心输出不是“能听见”,

而是“你愿意听它说话”。

这句话放在 AI 场景里非常重。

因为语言一旦成为主要交互媒介,

模糊、失真、颅内震动感,都会被无限放大为“厌烦”。

这是一个很清醒的判断:

AI 可以低存在感,但不能低清晰度。

三、2nm 手机级芯片:这是“外设”与“中枢”的分界线

第三点,才是真正危险的地方。

一个耳后佩戴的设备,却用手机级 2nm 芯片,这在功耗、成本、架构上都不是“顺手选择”。

这只说明一件事:

它不接受自己只是一个蓝牙外设。

它需要:

  • 本地推理
  • 持续上下文
  • 低延迟响应
  • 不依赖手机随时在线

换句话说,它在结构上被设计为一个并行的认知节点,而不是手机的延伸。

这一步,其实已经在挑战“手机作为唯一智能中枢”的默认共识。

四、真正的剧透:它想介入的不是操作,而是思考

把这三点合起来看,产品意图已经非常清楚了:

  • 不占用你的视觉
  • 不强迫你掏出手机
  • 不要求你完整发号施令
  • 但随时在你思考的边缘待命

它要切入的不是:

  • 搜索
  • 执行
  • 娱乐

而是一个更暧昧、也更危险的区域:

人类认知中的“边角料”:

犹豫、记不清、将就、暂放、以后再说。

这不是效率工具的战场,这是心理负荷的战场。

五、也是因此,它的失败空间被压得极窄

正因为贴得这么近,这类设备反而不能太聪明。

它一旦:

  • 话多一点
  • 主动一点
  • 总结你一点
  • 代表你一点

用户的反应不会是“用不用得习惯”,而是本能性排斥。

对这种设备来说,失败不是因为:

  • 算力不够
  • 模型不强
  • 回答不准

而是因为一个更原始的原因:

它越界了。

六、一个冷结论:下一代 AI 拼的不是能力,是克制

这条新闻真正有价值的地方,不在于它“多先进”,而在于它已经默认承认了一件事:

AI 如果要长期贴身存在,

就必须学会不表现自己。

  • 永远慢半拍
  • 永远低半度
  • 永远不替你下判断
  • 永远允许你继续犯错

否则,它的命运只有一个:

被摘掉,被遗忘,被重新塞回屏幕里。

结尾

所以,与其说这是一次新品爆料,不如说这是一次公开实验:

当 AI 离开屏幕,贴近身体,

人类能容忍它到什么程度?

这不是技术问题,

这是边界问题。

而这条新闻真正剧透的,是一句所有 AI 公司都不太愿意承认的话:

下一代 AI,

不是赢在“更聪明”,

而是赢在“没那么聪明”。

从open ai 主打的 耳后AI耳机谈起

  • 耳後、非骨傳導、2nm

這條新聞,已經把下一代 AI 設備的生死線寫明瞭

最近這條open ai旨在開拓後智能手機時代的AI耳機新聞看似平淡的爆料,其實信息密度極高:

“設備佩戴在耳後,不採用骨傳導,搭載手機級 2nm 芯片。”

很多討論停留在形態、參數,或者“是不是 AirPods 殺手”。

但如果你把这三点放在一起看,它几乎已经把产品哲学、使用场景,乃至失败边界,都提前剧透了。

这不是一条硬件新闻,
而是一次对“AI 应该如何存在于人身边”的公开押注。

一、耳后佩戴:它不想被你“注意到”

首先是耳后。

耳后不是为了好看,也不是为了差异化,而是一个非常明确的选择:

这个设备假设自己会被佩戴很久,甚至整天。

这就立刻排除了两种东西:
• 入耳式的沉浸感
• 强交互、强存在感的设备形态

换句话说,它的目标从一开始就不是“用的时候戴”,
而是**“你生活时它在场”**。

这一步,其实已经把它和传统耳机、可穿戴设备拉开了本质差异。

二、不走骨传导:它要的是“清晰的语言”,不是“随便能听见”

更关键的是第二点:明确声明“不走骨传导”。

这句话不是技术说明,而是一次路线切割。

骨传导的优势是环境感知,但它的代价也非常明确:
• 语音边界模糊
• 细节丢失
• 长时间佩戴带来的颅内不适感

这些缺点,对“听音乐”尚可忍受,
但对一个以语言为主要输出载体的 AI来说,几乎是致命的。

这说明什么?

它并不打算做一个“随便能响”的 AI,
而是一个“你愿意听它说话”的 AI。

这是一个非常重要、但容易被忽略的分水岭。

三、手机级 2nm 芯片:它不是外设,是“并行中枢”

真正让这条新闻变得危险的,是第三点。

一个戴在耳后的设备,
却用的是手机级、2nm 制程的芯片。

这意味着什么,其实不用多说:
• 它不满足于做“蓝牙外设”
• 它不想把智能完全外包给手机
• 它需要本地、持续、低延迟的推理能力

说得直白一点:

它不是手机的附件,
而是试图成为一个并行的“认知节点”。

这一步,已经越过了“耳机”这个物种。

四、把三点连起来看,真实意图就浮出来了

现在把这三点合在一起:
• 耳后佩戴 → 默认长时间存在
• 空气传声 → 以清晰语言为核心
• 手机级算力 → 本地、持续智能

你会发现,它真正想做的并不是“回答问题”,而是:

在你不掏手机、不看屏幕的情况下,
低频、低干扰地参与到你的认知过程中。

这不是 Siri 的升级版,
也不是更聪明的语音助手。

它试图切入的是一个更危险、也更微妙的位置:

人类思考的“边角料”。

五、这条新闻,真正剧透的是“不能做什么”

也正因为如此,这款产品其实一开始就被判了很多死刑。

它不能:
• 太主动
• 太健谈
• 太“懂你”
• 太自信
• 太爱总结你是谁

否则,它会立刻从“陪伴式存在”,
变成“侵犯式存在”。

对这种设备来说,聪明本身不是优势,而是风险。

六、一个反直觉的结论:

下一代 AI,不能太聪明

如果非要给这条新闻一个核心判断,我会用一句反直觉的话总结:

真正能活下来的随身 AI,
不是最聪明的那个,
而是最克制的那个。

它必须:
• 永远慢半拍
• 永远留余地
• 永远不替你做决定
• 永远允许你继续犯错

因为一旦它开始试图成为“更好的你”,
人类的本能反应只会是:摘掉它。

结语

从这个角度看,这条“耳后 + 非骨传导 + 2nm”的新闻,其实已经把赌注押得非常清楚了:

它赌的不是算法领先,
而是一种新的存在方式是否被人类接受。

如果它成功了,
AI 将第一次真正离开屏幕,进入人的生活节奏。

如果它失败了,
失败原因也不会是算力不够、模型不强,
而只会是一个更古老的问题:

它离人,太近了一点点。

全双工到天花板的豆包

这几天罗胖现场演示与豆包吵架的视频在网上疯传。建议都去听听,绝对比脱口秀精彩。

听完我的感觉是:它太会聊天了。不是“会回答”,是“会对打”。不是“能理解”,是“能接招”。你给它一点火星,它能当场把现场变成一段出彩的脱口秀辩论。

刺激的是:我把ChatGPT、Gemini、Claude、Grok 这些美国头部模型在脑子里挨个过了一遍——论智商、论推理、论工具链,确实这些烧钱无数的头部都各有很强的地方;但在chatbot 交互体验,尤其是“陪伴”“情绪价值”“临场反应”“口语节奏”这条赛道上,豆包这种产品给我的冲击很直接:老美这几家,至少在“好玩”和“像人”上,确实没它那么顺。不得不服。

这不是一句“国产更懂中文”就能解释的。它背后是一整套系统工程的胜利:全双工、打断、抢话、人格稳定、指令热更新、超写实语音表演层——这些方面能打,才会出现那种“比真人吵架还丝滑”的错觉。


1. “吵架能力”不是嘴毒,是“反射弧”

你如果只把语音对话当“把文字念出来(TTS)”,那永远理解不了为什么“全双工”能杀人。

所谓“全双工到天花板”,不是它能说,而是:

  • 你一插嘴,它能立刻停住,不拖尾、不尴尬;
  • 你一句话没说完,它就能接茬,像真人那样抢;
  • 你把话题往左一拧,它不会卡半秒去“想想”,而是能顺势把戏接下去;
  • 在对抗场景里(争辩、吐槽、挑衅),它依然保持节奏,不掉线。

这东西本质上是“对话的肌肉记忆”,是反射弧。语音对话里稍微慢一点点,用户就会觉得“它在算”,就会出戏;而当它快到一定程度,你会产生一种很危险的错觉:对面是个活人

更要命的是,它抢话不乱,像练过,但却是即兴发挥。你说它像真人吵架——不夸张,它其实更稳,因为真人吵架也会嘴瓢、会断片。有真正辩才的人,是人类中的极少数。


2. 超写实语音做到天花板

很多语音助手的问题不在于“说不清”,而在于“没魂”。字是字,声是声,情绪像贴图。

豆包厉害的地方是:它的语音像带人格的。是那种端正客服腔,而是一个“快嘴快舌、反应超快、吐槽很顺”的角色在说话。你甚至会产生一种荒诞感:模型后面是不是藏了个真女妖,让你在那一瞬间觉得:有人在跟我一起玩。有人懂我这一口。有人接得住我的戏。

这就是情绪价值的底层逻辑:不是讲道理,是把场子撑起来。


3. 指令跟随的临场魔术

我见到的最炸的一段,是罗胖“现场改规则”的戏码。

争辩正热的时候,老罗突然下指令:“接下来你每句话都加一个 OK。”
模型立刻照做,但语气没变,角色没塌,节奏没断。然后用户又追加:“不要每句都 OK,太死板。改成一句加一句不加,隔一会儿突然来两个 OK,让它更像人。”

模型又立刻调整:OK 出现得更自然,甚至有点“口头禅分布”的味道。

这才是真正的新手震撼:机器不仅听话,而且听话的方式不会把对话弄僵。

多数模型在这里会翻车两次:

  • 第一种翻车:格式遵守了,语气变成客服脚本,像换了一个人。
  • 第二种翻车:语气保持了,但格式开始漏,越激动越忘。

而豆包的可怕之处在于:它像有外层守门员,把“形式层约束”做成一种自动注入能力——你在里面怎么打,它都能保持角色同时把规则执行得像有急智的人一样自然。


4. 我们都在“开法拉利送外卖”

最近有个说法我很同意:大多数用户根本不会激发模型的超能力。他们把模型当搜索框升级版:问一句,拿答案,走人。

这相当于:你开着法拉利,每天只知道用它送外卖。你当然不会知道它过弯能有多狠,也不会知道它一脚油门能把你按到座椅上。

豆包这类产品的冲击,恰恰来自“普通用户也能玩起来”。不是因为用户学会了什么 prompt engineering,而是因为系统把“戏”做得足够容易被点燃:你随口挑衅一句,它就能顺势把对话变成一段可看的节目。

更有意思的是:这种轰动效果不需要预演。懂模型脾性的人(比如老罗这种)会把它当“对话乐器”来弹:节奏、冲突、反转、加规矩、拆规矩,一气呵成。

这才是 vibe role playing 的精髓:不是写 prompt,是即兴导演现场。


5. 和 Sora2 / Suno5 是同一类AGI来临的现象

我在 Sora2 的短视频、Suno5 的音乐创作上也反复体会到类似现状:

  • 提示词不是越精细越专业越好;
  • 过度精细会“指令过载”,甚至互相打架;
  • 有时候一句有画面、有情绪、有方向的概述,反而更容易激发模型脑补潜力,给你惊喜;
  • 当然也有例外:某些专业术语确实是“敲门砖”,训练时已对齐得很硬,不懂这些词就进不了门,出不来定向的特殊效果。

所谓 prompt engineering,很多时候不是科学,更像经验性舞台调度学:什么时候收,什么时候放;什么时候控制,什么时候让它飞。


6.  把爽感变成指标

可以建议用三段“爽感”测试,任何 LLM-native 语音接口都能AB对比:

  1. 对抗辩论:给角色、给冲突,允许打断纠错
  2. 格式热更新:中途插入强规则(口头禅、禁用词、句式、语速)

然后打分看这些指标:

  • 端到端反应时延
  • 打断成功率(停得干不干净)
  • 约束保持率(越吵越不漏规则)
  • 人格稳定性(别吵着吵着变客服)
  • 自我修复能力(漏了能不能自己圆回来,不出戏)
  • 幽默命中率(真实笑出来的频率)

当这些指标都对齐,就会得到一种用户层面极恐怖的结果:人忍不住会愿意跟它多聊,获得乐趣和满足感。这意味着什么?意味着留存,意味着陪伴,意味着付费,意味着口碑传播。你可以不服,但市场会服。


结语:OK 不是口头禅

有人以为“吵架能力”只是嘴毒。错了。真正的亮点是:你怎么插嘴、怎么改规矩、怎么挑衅,它都能接住,且接得像人。

OK 这个小把戏之所以值得反复讲,是因为它是一个极好的试金石:规则一改,戏还在不在?人格还稳不稳?节奏断不断?

当全双工走到天花板,chatbot 的竞争就不再只是“谁更聪明”,而是:谁更像一个活人,谁更能把你接住,谁更能提供情绪价值。

而情绪价值对于 toC 应用,绝对是刚需。

这才是它对所有模型的真正王者挑战。国产大模型从应用角度,完全不输老美,甚至更胜一筹。

 

 

FSD + Grok:超人老司机,带着“实习导游”上路

这几天一个热门话题,媒体标题党写得很嗨:“老马的 Grok 上车了,车载导游时代来了”。我承认我也兴奋——我是那种见新就上手的 early adopter,哪怕它“百孔千疮”,我也愿意先摸摸它的脾气,看看它究竟是“未来已来”,还是“未来还没来 yet”。

但实话实说:亲测下来,现在的 Grok 车载导游,真的很不给力。漏洞百出,幻觉严重。更关键的是——它根本无法与多年武功毕其一役的 FSD 驾驶能力比。

一句话概括我这几天的体感:
二者的配合很不相称:一个是超人老司机,一个是实习导游,稚嫩得可怕。

我有很多具体案例,错路、错指、瞎编、强行自信……以后有时间慢慢说道,逐条分享。今天先把这个现象背后的“系统逻辑”讲透:为什么我一边吐槽 Grok,一边又坚决不泼冷水,甚至更看好它的长期潜力。


1) 你以为它是“导游”,其实它更像“嘴炮导航员”

先把概念捋顺。我们今天说的 Grok 上车(尤其是“导游/助手”这类定位),它的核心不是驾驶控制,而是:

  • 帮你规划和解释路线、讲解周边、回答问题

  • 甚至“建议”去哪、怎么走、为什么这样走

  • 它的行动就是根据你的意思为FSD动态、实时更新导航路线

这类能力,本质是语言模型 + agent 化的接口

问题在于:语言模型最擅长的是“把话说圆”,不是“把事做对”。因此打造 Agent 的重心落在如何训练它做好事的 actions,但那并非一日之功。 

你让LLM写段文案,它能妙笔生花。你让它做一个对现实世界有约束、对错误极其敏感的“导游”,它就容易露馅:幻觉、编造、过度自信、缺乏事实核对——这些在文本世界是“可容错的尴尬”,在车上就是“会把人带沟里”的风险源。

所以我才说Grok当下最多也就是个“实习导游”:有时候很能耐,但也常常信口开河胡乱指挥路线。


2) 飞哥的震惊:这在以前“根本不能上线”

前几天我带 @李志飞 一起体验 FSD + Grok。飞哥大家都知道是第一批回国创业做中国 Siri 以及车载语音助手的老司机创业家,他的关注点非常直接,而且是行业人的那种“条件反射式警觉”:

“Grok 这种幻觉会要人命的啊。”
“它多次胡说八道,导航错误,怎么敢部署到车上,让百万用户敢用呢?”
“关键时刻导错了,司机要是不够灵活、没有判断力,是要出人命的。”

这段反应我非常理解。因为在传统车载助手时代,你要上线一个功能,哪怕“智障但稳定”,它至少可控和安全;而这种“智能 open 但不稳定”的东西,在老派安全工程语境里,通常连 beta 都算不上,顶多算 alpha——甚至很多团队会直接判死刑:不准上路。


3) 但在特斯拉的语境里,FSD 的安全底线,把 Grok 兜住了

这里就出现了一个很有趣、也很关键的结构性差异:特斯拉不是让 Grok 直接接管车辆控制(它更多是在“建议/解释/导游”层面折腾),驾驶安全的底座和全权负责仍然是 FSD。这是两个独立系统的拼接。

这意味着什么?

意味着 Grok 再怎么幻觉、再怎么嘴硬、再怎么瞎指路——只要驾驶执行掌握在 FSD手中不变,安全性就不会被它拖下水。Grok 瞎指挥时候的最大副作用不过是:绕路,耽误时间而已。没有安全性隐患。

这是两套系统的边界:

  • Grok:给你“信息与建议”,更新FSD的导航图,有时对,有时胡说

  • FSD:负责沿着导航图的指向“安全驾驶执行”,有明确的底线策略与约束

我特别想强调这一点:
对于 FSD,无论是人还是 Grok,无论你怎样临时改变路线、在什么时间点改变路线,FSD 都有它的安全底线来应对新的路线。它不会像人类司机那样因为你突然改口就手忙脚乱。

一个不该错过的路口因为临时改线错过了,FSD 会怎么做?它会——让它错过,然后找最佳路径再绕回来。

它忠于一种“安全第一”的内部逻辑,近似于你我都熟的那句老话:宁停三分,不抢一秒。

所以在特斯拉这套组合里,Grok 的“不成熟”反而变得可以容忍:在 FSD 大旗的庇护下,它有慢慢迭代改进的时间和机会。

这句话背后其实是一个行业分水岭:并不是每一个做车载助手的团队,都有 FSD 这种级别的安全底座可兜底。没有这个兜底,它的“幻觉导游”就不只是“绕路”,而是可能直接触发“事故”,有 liability concerns。


4) 我为什么不泼冷水

我对 Grok 现在的表现,确实有点“恨铁不成钢”。但我不会因为它不时“翻车”就断言它没戏。

事实上,我见过 FSD 更百孔千疮的前期,最后还是被老马迭代成“行业标杆”。

五年多前我开始用 FSD Beta 的时候,那真是——各种不稳、各种惊吓、各种“你在干嘛”。但我那时更关注的是 半瓶水中的水,而不是那大半瓶空气。

必须相信老马的迭代狂魔特质:无论见了公婆的媳妇有多丑,他都能不断化妆、美化,最后把这个丑媳妇训练并包装成国民理想媳妇——要形象有形象,要能力有能力。

今天我看 Grok 也是这个逻辑:重要的不是它当下作为数字导游常常翻车、偶儿才露露峥嵘的表现;重要的是——老马敢为人先,用 LLM-native agent 去先干掉 Siri 时代的人工智障。

一句话我愿意重复:
前者智能 open 但不稳定,是朝阳;后者稳定但智障,是夕阳。“平替后者”是大势所趋,是不归路。


5) Grok 的进步会比 FSD 快很多:因为它是“纯软件”,嘴上功夫

这里是我最乐观的判断,也是一条很工程的判断:

  • FSD 是软硬结合的长线条路径:传感器、车规、安全、道路长尾、法规、人类社会系统……每一步都慢,且成本极高

  • 导游/助手 agent 是纯软件:嘴上功夫,迭代周期短,数据驱动强

所以我相信:Grok agent 的进步会比 FSD 快很多,不像 FSD 经过多年的苦苦挣扎才修炼成今天的超人。

哪怕大模型本性有幻觉,但只要:错误驱动、数据驱动、强化不停止,它的性能就会迅速提升,幻觉就会被压缩——虽然不会零幻觉,但总体趋势毋庸置疑。数据闭环的飞轮要让它转。转起来就不愁它不出彩。


6) 现在怎么用:不要把它当“可靠导游”,而当“进化中的实验体”

我现在不大用 Grok 做导游了。我知道它几斤几两,还远没成熟。但我会持续关注它,也愿意不时当当它的小白鼠。我对它的进化曲线非常有兴趣。

在 FSD 这个“超人老司机”旁边,Grok 这个“实习导游”至少不会把车开沟里。
它可以在安全底线被兜住的前提下,去犯错、去改错、去变强。这一点没有疑问。

这可能就是特斯拉最“特斯拉”的地方:
别人家的车载助手必须先证明自己“不会错”,才能上线;
特斯拉选择先把它扔到真实世界里迭代——因为它背后有一个更强的系统把风险挡住。

你可以讨厌这种风格,但你很难否认:它确实更接近“用迭代碾压世界”的那套路径。


结语:今天的 Grok 很稚嫩,但它代表的是agent的方向

我对 Grok 现状的评价:

  • 作为导游,它现在的表现常常不及格

  • 作为第一批把LLM agent 引入功能性智能助手的努力,它值得认真对待

因为它在做一件有分水岭意义的事情:把车载交互从“稳定的人工智障”,推向“开放的智能体”。

稍安勿躁,我们过半年再来聊:
这位“实习导游”到底什么时候能配得上这位“超人老司机”。

 

梁文峰团队的 mHC 研究在做什么

立委按:逢年过节必有新事儿。去年元旦春节那一会儿是闹腾CoT强化推理,DeepSeek 开源推理模型推动了大模型后训练的范式转变。今年梁文峰他们元旦又“闹事”了,但不像CoT那样直观。这次说的是 mHC,听上去就显得高深。值得拆解一下。

DeepSeek 这次的 mHC 论文,第一眼读上去确实有点“技术密度过高”。但它要解决的其实是一个非常朴素、也非常关键的问题:我们能不能在不牺牲训练稳定性的前提下,把模型内部的信息通道修得更宽?

要看懂这件事,得先回到深度学习的一段“地基史”。熟悉神经网络历史的都知道,残差的发明是深度神经能 work 的关键,从而为深度学习革命打稳了基础:就是用 x+f(x) 代替 f(x),来保证多达几百上千层的网络,不至于在不断加深的转换中“差之毫厘,失之千里”,从而稳住训练。

但这里有个“硬核”的底线经常被忽略:残差之所以是残差,不是因为它“加了一条支路”,而是因为它把恒等映射当作守恒机制替深度训练兜底。大模型本质上是一个可编程的函数逼近器,把输入 x 变成输出 y=f(x);而深度一旦上去,你不是在学一个函数,而是在学一串函数的复合。任何一点“不守恒”的东西,都可能被深度放大成数值灾难。残差里那条直通的 x,就是大模型的定海神针。

mHC 的故事,就从“想把这根定海神针加粗成多车道高速,但又不能把稳定性一起赔进去”开始。

把残差从“单车道”扩成“立交桥”

新年第一天,DeepSeek 在 arXiv 放出一篇相当“硬核”的论文:mHC: Manifold-Constrained Hyper-Connections,时间戳是 2025 年 12 月 31 日(v1)。arXiv
作者列表里,除了三位一作(Zhenda Xie、Yixuan Wei、Huanqi Cao),还出现了神龙见首不见尾的传奇人物 Wenfeng Liang(梁文锋)arXiv
这篇东西技术性蛮强,但它在解决的,其实是一个很“基础设施级”的老问题:深度网络到底靠什么才能越堆越深而不炸?

01|从残差的“定海神针”说起:为什么 x + F(x) 让深度网络能 work

熟悉神经网络里程碑历史的都知道,残差(Residual / Skip Connection)的发明,是深度神经网络能 work 的关键,从而为深度学习革命打稳了基础。何凯明/张祥雨也因此成名;那篇残差论文的引用数,据说在 AI 历史上是绝对的首屈一指。

这是一项发生在十多年前、深度学习革命刚刚开启时,他们在微软做出的里程碑工作。后来,它成了深度神经网络的标准 practice:x+f(x) 代替 f(x)。这条看似朴素的改动,恰恰是为了保证多达几百、上千层的网络,在不断加深的(函数)转换中不至于“差之毫厘,失之千里”,从结构上兜住训练的稳定性(那条 x 的直通路径,本质上就是恒等映射的安全绳)。

我们知道,大模型本质上就是个图灵机:在足够的容量与数据驱动下,它可以规律性地把任何信号输入 x 变成任何其他信号输出 y,也就是实现某个 f(x)。这就是所谓的万能函数近似——老母鸡变鸭的魔术:文生图、机器翻译之类,看上去神奇,背后都是“把 x 变成 y”的系统性变换。正是在这个意义上,残差网络(ResNet)里 x 这条直通连接线,成了大模型的定海神针

因此,ResNet 的核心不是某个更复杂的卷积,而是那条看似朴素的“直通线”——让每一层学习 F(x),但输出是 y = x + F(x)。原论文把这种 直通车道(shortcut) 设计解释为“identity mapping”,它让信息可以跨层稳定传递。

你可以把它当作在深度网络这个“层层加工的工厂”里,额外修了一条不加工作业、直达下一站的传送带。于是深度从几十层堆到几百层、上千层时,也不至于在复合变换里越走越偏,最终训练崩盘。

ResNet 把每一层从“直接学一个函数”改成“学一个增量”。这就好比雕塑大师把人物雕塑工作,转变为“去除多余的部分”。一块大理石,多余的“残差”去除殆尽,人物自然就成型了。

这件事的关键在于它把恒等映射(identity mapping)塞进了网络:哪怕 F 学得一塌糊涂,x 这条直通路径也能把信号和梯度比较完整地送到更深处,从而让几百上千层不至于“越算越跑偏”。mHC 论文在引言里也把这点讲得很直白:残差的稳定性,来自恒等映射跨层累积时的结构性保障。arXiv

作为研究背景,一句话总结残差的精神内核:

让网络“可以很深”,靠的不是每层转换多聪明,而是“永远留一条不作妖的直达通路”。

02|单车道不够了:HC 把残差流“扩建成多车道”

传统残差是一条残差流(hidden state 的那条“主干通道”)。但当模型越来越大,研究者会自然产生一个念头:

      • 既然残差流像高速公路的主干,

      • 那我能不能把它从 1 条车道扩成 n 条车道

      • 让信息在不同车道之间更自由地交换、混合,表达力更强?

这就是 Hyper-Connections(HC)这类工作的出发点:把残差流的宽度从 C 扩到 n×C,并引入一个可学习的混合矩阵,把“各条车道”的信息在每层重新路由。在 HC 原论文里,核心机制就是这种“复制 n 份 residual path、再在它们之间做连接”的宏观结构。

到这里为止,一切都很美:
路修宽了,车更多了,理论上吞吐更大、信息更丰富。

但问题是:你把高速路扩建成多车道,最怕的不是车多,而是没有交规。

03|HC 为什么会炸:无约束矩阵跨层复合变成“放大器”

残差之所以稳,关键是 identity mapping 这条线天然具备一种“守恒”味道:
你至少能保证有一部分信号,不被层内变换“瞎折腾”(带偏)。

但 HC 的混合矩阵完全自由学习、没有任何约束,跨多层之后,实际上是在做一串矩阵连乘。mHC 论文直说了:HC 的这种无约束设计在大规模训练时会破坏 identity mapping 作为“conservation mechanism(守恒机制)”的角色,导致平均信号强度无法保持,从而出现无界放大或衰减

更直观地讲这种“放大器效应”就是:

  • 如果某几层学到的“残差”在某些方向上“略大于 1”,

  • 经过几十层、上百层复合后,增长会呈指数积累,

  • 最终就是大家熟悉的两种灾难:信号爆炸 / 梯度爆炸,或者相反:梯度消失。都是模型训练的灾难。

不是 HC 多车道思路不对,而是它把原残差网络自带的这根“定海神针”,拆成了“自由的放大链路”。

04|DeepSeek 的一招:把混合矩阵关进“双随机”的笼子里

mHC 的核心思想可以一句话概括:

你可以修立交桥、修多车道;但负责“指挥交通”的矩阵,必须服从一套严格的守恒规则。

他们选择的规则是:把残差约束到所谓 双随机(doubly stochastic / bistochastic)矩阵集合上——元素非负、每一行和每一列都等于 1(归一化)

这样做带来三层非常“工程友好”的稳定性保证:

      1. 凸组合(convex combination)解释
        因为行列和为 1,残差等价于对输入特征做“加权混合”,但权重总量守恒,所以整体更像“搅拌”而不是“放大器”。

      2. 均值守恒 + 范数被严格规整
        论文明确说:这种约束让特征均值保持、信号范数被严格 regularize,从而缓解 信号爆炸/消失(vanishing/exploding)。

      3. 跨层复合仍然稳定(乘法封闭性)
        双随机矩阵相乘仍是双随机矩阵(非负性与行列和约束都能传递),因此“多层连乘”不会越乘越野,守恒性可以贯穿整个深度。

翻译成咱老百姓的话就是:

每一层的混合矩阵,本质上像是在“若干种换道方案(置换)”之间做概率意义上的加权选择。这就特别像一个“带守恒约束的交通路由系统”:怎么换道都行,但总车流不能凭空变多或变少。

另外,mHC 还对前后残差引入非负约束(论文用 sigmoid 形式实现),避免正负系数复合导致的数值抵消行为。

05|把“野矩阵”投影成“双随机矩阵”

“利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上”,这里的核心是这一步:

      1. 先让矩阵元素变成严格正数

      2. 然后反复做两件事:

        • 归一化每一行(让行和=1)

        • 归一化每一列(让列和=1)
          行列交替迭代,最终收敛到双随机结构。

你可以把所谓 Sinkhorn-Knopp 过程想象成一个“交警训练营”:
不管你原来学出来的“交警”矩阵多么放飞自我,进训练营一套队列动作做完,它就必须满足“行列守恒”的硬纪律,才能上岗指挥交通。

关于“流形”(manifold)这个术语,可以这样理解:
严格说双随机矩阵集合整体是个凸多胞形(边界有棱角),但在其内部(所有元素严格正)可以视为一个受约束的光滑空间;论文在工程语境里用“manifold”来表达“我们不让参数在整个欧氏空间乱跑,而是限制在一个有几何结构的可行集合里”。

06|它不仅是数学,更是工程:6.7% 的代价换稳定与收益

把残差流扩成 n 倍,直觉上显存与通信都会爆炸。mHC 论文非常明确地把“系统开销”当作同等重要目标:它不仅提出数学约束,也在配套工程上做了 kernel fusion、选择性重计算、以及在 DualPipe 调度里更激进的通信-计算重叠。

最后他们给出的系统级结论是:当 n = 4 时,mHC 只带来约 6.7% 的额外训练时间开销

这点很关键:

如果只讲“理论上更稳”,我们会问“那是不是贵得用不起?”
而这篇论文显然在回答:“我们把它做成了大训练里可落地的结构升级。”

07|一句话总结:mHC 的创新意义在哪?

HC 想把残差从单车道升级成立交桥;mHC 做的,是给立交桥加上守恒型交通规则——用双随机约束恢复 identity mapping 的稳定性,同时把工程开销压到可接受范围。

这也解释了下列对应关系:

  • 残差的多流并行架构:残差流从 C 变成 n×C,让“通道”更多;

  • 连接矩阵受约束:核心是残差不再自由,而是双随机;

  • Sinkhorn-Knopp:实现“投影/归一化”的具体算法;

  • 解决数值不稳定与信号爆炸:把跨层连乘的放大链条关进“守恒笼子”

残差之所以稳,不是因为“加法神奇”,而是因为它隐含了某种守恒结构;
当我们试图把残差升级成更复杂的拓扑时,真正需要被继承的,是这份守恒,而不是加号本身。

 

 

DS原始论文:arXiv:mHC: Manifold-Constrained Hyper-Connections

从“眼球 + SaaS”到“大模型商业”

用量模式的甜蜜、危险与广告的改头换面

我的前老板在LinkedIn很活跃,特愿意分享他在美国创业一辈子以及当下业务的经验和教训。最近的一个分享很有意思:他把“用量定价模式(usage-based pricing / UBP)”的 Good / Bad / Ugly 拆得很利落,他后来总结道:真正会把公司带进沟里的,不是用量制本身,而是把“非复购的收入”伪装成“会复购的收入”,尤其在融资语境里。

这件事,放在我们正在经历的更大迁移里看,会更清晰:我们正在从过去二十年的两大商业模式的主流引擎——

  • 眼球广告模式(attention-based:流量、曝光、点击、转化漏斗)

  • SaaS 订阅模式(seat-based:按席位打包,靠续约与增购)

转向大模型时代的一组新组合拳:

  • 订阅(toC、toPro、toTeam、toEnterprise、toGov)

  • API/Token/调用用量(按消耗计费,成本可变、边际清晰)

  • 改头换面的广告/眼球模式(从“给你看”变成“替你选/替你做”,赞助位从信息流转移到“答案/动作/工具选择”)

这个话题在我们正处于的AI应用难产期,尤其重要,不妨展开来谈。


1. “The Ugly”的本质:UBP 最可怕的不是波动,而是“被当成 ARR 的幻觉”

在传统 SaaS 的语言体系里,$3M ARR 的潜台词是:只要你留存做得不错,明年大概率不是 $0,而是 在这 $3M 上叠加增长。资本市场习惯为“可预测、可续约、可扩张”的现金流付高倍数。

但在不少 UBP/UBM(usage-based model)公司里,$3M 可能不是“跑出来的订阅”,而是“试出来的烟花”

  • 客户有一笔“AI 实验预算”

  • 来试你的产品,甚至在一两个月内用得很猛

  • 然后项目转向、负责人离职、POC 结束、预算冻结、换别家试——消费瞬间归零

于是同样是 $3M,今年看着像增长,明年可能只剩 $1M,原因不是你退步,而是 “试用型收入”天然复购不友好。如果你按 SaaS 倍数融资,估值就会“先虚胖再塌方”,后果你已经写得很直白:down round、CEO 更替、低价卖身

一句话总结这段“Ugly 续集”:

UBP 的最大风险,是把“消费收入”当成“订阅收入”去叙事、去定价、去融资。


2. 为什么大模型时代更容易出现“Usage Bubble”

UBP 在大模型时代不是小众,而是“顺水推舟”,因为大模型服务天然满足三件事:

  1. 成本结构可变:推理、token、带宽、GPU 时间都在“用多少付多少”

  2. 客户价值不确定:很多客户还在找场景,先试再说

  3. 切换成本看似很低:API 换个 key、prompt 改一改、工作流挪一挪,短期并不痛

这三点叠在一起,就特别容易形成“usage bubble”:

  • 试用门槛低 → 进来的人多

  • 试验期会集中跑量 → 指标漂亮

  • 留存靠“持续业务价值”而非“合同期限” → 一旦价值链没卡住,掉得也快

过去的 SaaS 至少还有“合同的时间缓冲”。UBP 没有缓冲,它更像电费:你不用空调,账单就没了。


3. 大模型商业的三种主流定价,本质上对应三种“关系”

把订阅、用量、广告放到同一张图里,你会发现它们对应的不是“收费方式”,而是你和用户的关系

A) 订阅:买的是“持续可用的能力”

适合场景:

  • 价值稳定、使用频率中高

  • 用户愿意把你当“日常工具”

  • 你能把体验做成“离不开”,而不仅是“偶尔爽一下”

风险:

  • 订阅疲劳继续加剧(用户已经被各种订阅抽干耐心)

  • 你必须持续交付“新鲜感 + 可靠性”,否则就是被砍的那一个

B) API 用量:买的是“可量化的消耗”

适合场景:

  • 成本与消耗强绑定(token、调用、分钟、任务数)

  • 采购决策需要低风险入口

  • 产品形态偏“平台/基础设施/能力组件”

风险:

  • 你可能变成“可替换的管道”

  • 指标好看但不稳,融资叙事极易误判

  • 成功更多取决于“嵌入客户核心流程的深度”,而不是“试用规模”

C) 广告/眼球模式的改头换面:买的是“被选择的机会”

过去广告买曝光;大模型时代更可能买三种位置:

  1. 答案位置:在生成内容里被提及/被引用/被推荐

  2. 工具位置:在 agent 的“工具选择”里被优先调用

  3. 动作位置:在“替你办事”的链路中成为默认路径(预订、下单、开户、比价、投放……)

这不是“广告消失”,而是“广告迁徙”:

  • 从信息流迁到对话流

  • 从点击迁到决策

  • 从展示迁到行动

风险也更大:一旦处理不好“赞助与中立”的边界,用户信任会掉得非常快。大模型产品最贵的资产不是流量,是可信度


4. 对创业者最实用的一条建议:把“收入”拆成两类再谈增长

如果你做 UBP/UBM 或混合模式,我建议你在内部(以及对投资人)强行把收入拆成两桶:

1) 承诺型收入(Committed)

来自:

  • 年度最低消费承诺

  • 预付 credits(带明确有效期与续购机制)

  • 与业务系统绑定的长期工作流(离开你就断)

它更接近 SaaS 的“可预测性”。

2) 实验型收入(Experimental)

来自:

  • POC、试点、探索预算

  • 单团队、单负责人驱动的短周期尝鲜

  • 没有多部门扩散、没有流程固化

它更接近“项目收入”,不要拿它当 ARR 去讲故事。

这两桶拆开,你很多关键决策会突然变清晰:

  • 你到底是在“做增长”,还是在“做补洞”

  • CS 是在“促活”,还是在“救火”

  • Sales 是在“签长期”,还是在“拉试用”


5. 入口在换,商业不会消失,但计量单位变了

过去互联网的计量单位是:

  • 眼球:DAU、时长、PV、CTR

  • SaaS:席位、模块、续约、NDR

大模型时代的计量单位更像:

  • 意图(intent):用户到底想完成什么任务,你在满足什么刚需

  • 行动(action):你是否真的帮他办成

  • 消耗(consumption):为了办成你消耗了多少 token/调用/工具链

  • 信任(trust):用户是否愿意把“最后一步”交给你

所以,新的商业模式大概率不是三选一,而是混合体:

  • 用订阅覆盖“稳定能力”

  • 用用量覆盖“弹性消耗”

  • 用赞助/分成覆盖“被选择与被调用”

  • 最终用“结果/交付”去对齐价值(更像 outcome-based,而不是 feature-based)

大模型时代最稀缺的不是流量,而是“稳定可复用的工作流位置”。谁能成为“默认工具链的一环”,谁就能把用量从泡沫变成复购,把曝光从广告变成分发。


6. 一个落地的自检清单(你可以直接拿去用)

如果你在做(或评估)大模型业务,我建议每季度问自己六个问题:

  1. 我们的“usage”定义是否反映真实价值,而不是鼓励无效调用?

  2. 收入里承诺型 vs 实验型各占多少?趋势如何?

  3. usage 的留存是“团队留存”还是“负责人留存”?负责人走了会怎样?

  4. CS 的 KPI 是“上线”还是“消费与扩散”?有没有机制推动多部门扩散?

  5. 我们是否在关键链路里形成了“默认位置”(工作流、工具选择、动作执行)?

  6. 如果资本市场按更低倍数给消费收入估值,我们的增长故事是否仍成立?

 

 

2025 AGI 编年史:从范式革命到商业黎明

一位 AI 老兵关于搜索消亡、交互重构与自动驾驶终局的回望

前言:当“不可能”成为“基准”

在 AI 领域,“老司机”的直觉往往来自于对摩尔定律的肌肉记忆。然而,2025 年的进程并非线性的爬升,而是一场多维度的坍塌——物理世界、人类审美、信息获取逻辑以及智力分工的旧边界,正被多模态大模型和代理架构击穿。

这一年,我们正式跨越了从“模仿”到“理解”,再到“自主执行”的鸿沟。

【上篇】感官与信息的终结:主权移交

1.1 审美民主化:概率空间内的“车载循环”

Suno 5 的出现,标志着“生成式审美”已在概率空间内锁定了人类的共鸣频段。

  • 它不再是简单的音符堆砌,而是对人类情感曲线的精准映射。当一个从未受过训练的“乐盲”随手生成的作品能达到“车载循环而不腻”的标准时,传统的作曲培训已成为一种古典爱好。

1.2 搜索的祭日:SEO 的黄昏与真理的直达

2025 年,传统的搜索模式(Search Indexing)正式退居后台。曾经养活了无数公司的 SEO(搜索引擎优化) 逻辑彻底崩盘。

  • 范式颠覆:当 OpenAI、Perplexity 乃至自我革命后的 Google 直接提供答案时,用户不再需要从“十个蓝色链接”和满屏的关键词竞价广告中翻找信息。
  • 核心转变:搜索从“寻找(Find)”进化到了“获取(Acquire)”。这意味着互联网流量的分发权从关键词博弈转移到了语义理解,旧的商业帝国正在失去其地基。SEO 正在成为历史名词。

【中篇】交互与物理的接管:从辅助到主宰

2.1 FSD V14:从“数据质疑”到“Apples to Apples”的硬核证言

关于特斯拉 FSD 的安全性,我曾是“怀疑同情派”。过去,自动驾驶数据常因“人类在危险时刻接管”而存在统计学偏差。但 2025 年,FSD V14 终结了这场辩论。

  • 逻辑转折:以前的统计被质疑是由于人类只在简单路段开启。但现在,多数用户 99% 以上的里程(包括极端复杂路段)全由 FSD 完成。这种趋向有实时数据累积数据佐证,非常明显。
  • 硬核证言:当人工干预几乎归零,当方向盘几乎没被人类触碰过,这种对比就是真正的 Apples to Apples。FSD 的安全性比人类平均水平高出 n 倍,这不是实验室的模拟,而是真实的物理世界奇点。

2.2 交互的“不归路”:手机与车载的 Agent 化

  • LLM-Native 交互:以“豆包手机”为代表的新物种,展示了原生 AI 交互如何碾压传统的 手机使用习惯以及App 生态。一旦用户习惯了“一句话解决问题”,就再也无法容忍在 App 之间手动跳转。这是一条不归路。
  • 车载向导(Guide Agent):车载语音正从“人工智障”进化为 Tesla Grok 这种具备动态导航能力的 Agent。它不再只是单一的执行命令,而是在理解你的意图和环境。交互的进化也是一条不归路,舒适区的迁移从来不可逆。

【下篇】认知的洗牌与商业的荒原

3.1 智力劳动的“碾压”:从程序员到分析师

2025 年,Coding Agent 和 Deep Research 模型不再是辅助工具,它们是“数字员工”。当 Agent 能够独立管理整个代码仓库,并在超长窗口中进行跨维度的长程推理时,初级白领的价值正在被迅速抹平。这不是竞争,这是维度的降临。

3.2 商业闭环的本质矛盾:企业上下文的“上下对进”

这是 2025 年最扎心的事实:95% 的 AI 应用未见商业闭环。

  • 白硕老师的深刻洞察:瓶颈在于“企业上下文(Enterprise Context)”的根源性矛盾。
  • 大师深度剖析:现存企业的上下文是在“非 AI 时代”构建的,那是一套自底向上、基于技术视角堆砌的底层代码和碎片化系统。而 AI 要求的语境是自顶向下的——先有大模型“本体”,再展开到具体的 LLM-native 数据落地。
  • 相向而行:对于存量企业,这要求一场脱胎换骨的“重治理”。这种从底层的技术重构到顶层业务逻辑的“上下对进”,正是 Palantir 等公司能在大模型时代横刀立马的关键。无法实现“AI 就绪”的企业,终将在黎明前的黑暗中耗尽氧气。

结语:在奇点之上,做清醒的观察者

2025 年不是一个终点,而是一个“旧世界”崩塌前的最后告别。

当搜索退居幕后,当交互重归自然,当 FSD 解放双手,我们作为“人类”的独特性究竟还剩下什么?或许,AGI 带来的最大礼物,就是逼迫我们从“做工”的琐碎中抽身,去追问关于存在的意义。