从“眼球 + SaaS”到“大模型商业”

用量模式的甜蜜、危险与广告的改头换面

我的前老板在LinkedIn很活跃,特愿意分享他在美国创业一辈子以及当下业务的经验和教训。最近的一个分享很有意思:他把“用量定价模式(usage-based pricing / UBP)”的 Good / Bad / Ugly 拆得很利落,他后来总结道:真正会把公司带进沟里的,不是用量制本身,而是把“非复购的收入”伪装成“会复购的收入”,尤其在融资语境里。

这件事,放在我们正在经历的更大迁移里看,会更清晰:我们正在从过去二十年的两大商业模式的主流引擎——

  • 眼球广告模式(attention-based:流量、曝光、点击、转化漏斗)

  • SaaS 订阅模式(seat-based:按席位打包,靠续约与增购)

转向大模型时代的一组新组合拳:

  • 订阅(toC、toPro、toTeam、toEnterprise、toGov)

  • API/Token/调用用量(按消耗计费,成本可变、边际清晰)

  • 改头换面的广告/眼球模式(从“给你看”变成“替你选/替你做”,赞助位从信息流转移到“答案/动作/工具选择”)

这个话题在我们正处于的AI应用难产期,尤其重要,不妨展开来谈。


1. “The Ugly”的本质:UBP 最可怕的不是波动,而是“被当成 ARR 的幻觉”

在传统 SaaS 的语言体系里,$3M ARR 的潜台词是:只要你留存做得不错,明年大概率不是 $0,而是 在这 $3M 上叠加增长。资本市场习惯为“可预测、可续约、可扩张”的现金流付高倍数。

但在不少 UBP/UBM(usage-based model)公司里,$3M 可能不是“跑出来的订阅”,而是“试出来的烟花”

  • 客户有一笔“AI 实验预算”

  • 来试你的产品,甚至在一两个月内用得很猛

  • 然后项目转向、负责人离职、POC 结束、预算冻结、换别家试——消费瞬间归零

于是同样是 $3M,今年看着像增长,明年可能只剩 $1M,原因不是你退步,而是 “试用型收入”天然复购不友好。如果你按 SaaS 倍数融资,估值就会“先虚胖再塌方”,后果你已经写得很直白:down round、CEO 更替、低价卖身

一句话总结这段“Ugly 续集”:

UBP 的最大风险,是把“消费收入”当成“订阅收入”去叙事、去定价、去融资。


2. 为什么大模型时代更容易出现“Usage Bubble”

UBP 在大模型时代不是小众,而是“顺水推舟”,因为大模型服务天然满足三件事:

  1. 成本结构可变:推理、token、带宽、GPU 时间都在“用多少付多少”

  2. 客户价值不确定:很多客户还在找场景,先试再说

  3. 切换成本看似很低:API 换个 key、prompt 改一改、工作流挪一挪,短期并不痛

这三点叠在一起,就特别容易形成“usage bubble”:

  • 试用门槛低 → 进来的人多

  • 试验期会集中跑量 → 指标漂亮

  • 留存靠“持续业务价值”而非“合同期限” → 一旦价值链没卡住,掉得也快

过去的 SaaS 至少还有“合同的时间缓冲”。UBP 没有缓冲,它更像电费:你不用空调,账单就没了。


3. 大模型商业的三种主流定价,本质上对应三种“关系”

把订阅、用量、广告放到同一张图里,你会发现它们对应的不是“收费方式”,而是你和用户的关系

A) 订阅:买的是“持续可用的能力”

适合场景:

  • 价值稳定、使用频率中高

  • 用户愿意把你当“日常工具”

  • 你能把体验做成“离不开”,而不仅是“偶尔爽一下”

风险:

  • 订阅疲劳继续加剧(用户已经被各种订阅抽干耐心)

  • 你必须持续交付“新鲜感 + 可靠性”,否则就是被砍的那一个

B) API 用量:买的是“可量化的消耗”

适合场景:

  • 成本与消耗强绑定(token、调用、分钟、任务数)

  • 采购决策需要低风险入口

  • 产品形态偏“平台/基础设施/能力组件”

风险:

  • 你可能变成“可替换的管道”

  • 指标好看但不稳,融资叙事极易误判

  • 成功更多取决于“嵌入客户核心流程的深度”,而不是“试用规模”

C) 广告/眼球模式的改头换面:买的是“被选择的机会”

过去广告买曝光;大模型时代更可能买三种位置:

  1. 答案位置:在生成内容里被提及/被引用/被推荐

  2. 工具位置:在 agent 的“工具选择”里被优先调用

  3. 动作位置:在“替你办事”的链路中成为默认路径(预订、下单、开户、比价、投放……)

这不是“广告消失”,而是“广告迁徙”:

  • 从信息流迁到对话流

  • 从点击迁到决策

  • 从展示迁到行动

风险也更大:一旦处理不好“赞助与中立”的边界,用户信任会掉得非常快。大模型产品最贵的资产不是流量,是可信度


4. 对创业者最实用的一条建议:把“收入”拆成两类再谈增长

如果你做 UBP/UBM 或混合模式,我建议你在内部(以及对投资人)强行把收入拆成两桶:

1) 承诺型收入(Committed)

来自:

  • 年度最低消费承诺

  • 预付 credits(带明确有效期与续购机制)

  • 与业务系统绑定的长期工作流(离开你就断)

它更接近 SaaS 的“可预测性”。

2) 实验型收入(Experimental)

来自:

  • POC、试点、探索预算

  • 单团队、单负责人驱动的短周期尝鲜

  • 没有多部门扩散、没有流程固化

它更接近“项目收入”,不要拿它当 ARR 去讲故事。

这两桶拆开,你很多关键决策会突然变清晰:

  • 你到底是在“做增长”,还是在“做补洞”

  • CS 是在“促活”,还是在“救火”

  • Sales 是在“签长期”,还是在“拉试用”


5. 入口在换,商业不会消失,但计量单位变了

过去互联网的计量单位是:

  • 眼球:DAU、时长、PV、CTR

  • SaaS:席位、模块、续约、NDR

大模型时代的计量单位更像:

  • 意图(intent):用户到底想完成什么任务,你在满足什么刚需

  • 行动(action):你是否真的帮他办成

  • 消耗(consumption):为了办成你消耗了多少 token/调用/工具链

  • 信任(trust):用户是否愿意把“最后一步”交给你

所以,新的商业模式大概率不是三选一,而是混合体:

  • 用订阅覆盖“稳定能力”

  • 用用量覆盖“弹性消耗”

  • 用赞助/分成覆盖“被选择与被调用”

  • 最终用“结果/交付”去对齐价值(更像 outcome-based,而不是 feature-based)

大模型时代最稀缺的不是流量,而是“稳定可复用的工作流位置”。谁能成为“默认工具链的一环”,谁就能把用量从泡沫变成复购,把曝光从广告变成分发。


6. 一个落地的自检清单(你可以直接拿去用)

如果你在做(或评估)大模型业务,我建议每季度问自己六个问题:

  1. 我们的“usage”定义是否反映真实价值,而不是鼓励无效调用?

  2. 收入里承诺型 vs 实验型各占多少?趋势如何?

  3. usage 的留存是“团队留存”还是“负责人留存”?负责人走了会怎样?

  4. CS 的 KPI 是“上线”还是“消费与扩散”?有没有机制推动多部门扩散?

  5. 我们是否在关键链路里形成了“默认位置”(工作流、工具选择、动作执行)?

  6. 如果资本市场按更低倍数给消费收入估值,我们的增长故事是否仍成立?

 

 

2025 AGI 编年史:从范式革命到商业黎明

一位 AI 老兵关于搜索消亡、交互重构与自动驾驶终局的回望

前言:当“不可能”成为“基准”

在 AI 领域,“老司机”的直觉往往来自于对摩尔定律的肌肉记忆。然而,2025 年的进程并非线性的爬升,而是一场多维度的坍塌——物理世界、人类审美、信息获取逻辑以及智力分工的旧边界,正被多模态大模型和代理架构击穿。

这一年,我们正式跨越了从“模仿”到“理解”,再到“自主执行”的鸿沟。

【上篇】感官与信息的终结:主权移交

1.1 审美民主化:概率空间内的“车载循环”

Suno 5 的出现,标志着“生成式审美”已在概率空间内锁定了人类的共鸣频段。

  • 它不再是简单的音符堆砌,而是对人类情感曲线的精准映射。当一个从未受过训练的“乐盲”随手生成的作品能达到“车载循环而不腻”的标准时,传统的作曲培训已成为一种古典爱好。

1.2 搜索的祭日:SEO 的黄昏与真理的直达

2025 年,传统的搜索模式(Search Indexing)正式退居后台。曾经养活了无数公司的 SEO(搜索引擎优化) 逻辑彻底崩盘。

  • 范式颠覆:当 OpenAI、Perplexity 乃至自我革命后的 Google 直接提供答案时,用户不再需要从“十个蓝色链接”和满屏的关键词竞价广告中翻找信息。
  • 核心转变:搜索从“寻找(Find)”进化到了“获取(Acquire)”。这意味着互联网流量的分发权从关键词博弈转移到了语义理解,旧的商业帝国正在失去其地基。SEO 正在成为历史名词。

【中篇】交互与物理的接管:从辅助到主宰

2.1 FSD V14:从“数据质疑”到“Apples to Apples”的硬核证言

关于特斯拉 FSD 的安全性,我曾是“怀疑同情派”。过去,自动驾驶数据常因“人类在危险时刻接管”而存在统计学偏差。但 2025 年,FSD V14 终结了这场辩论。

  • 逻辑转折:以前的统计被质疑是由于人类只在简单路段开启。但现在,多数用户 99% 以上的里程(包括极端复杂路段)全由 FSD 完成。这种趋向有实时数据累积数据佐证,非常明显。
  • 硬核证言:当人工干预几乎归零,当方向盘几乎没被人类触碰过,这种对比就是真正的 Apples to Apples。FSD 的安全性比人类平均水平高出 n 倍,这不是实验室的模拟,而是真实的物理世界奇点。

2.2 交互的“不归路”:手机与车载的 Agent 化

  • LLM-Native 交互:以“豆包手机”为代表的新物种,展示了原生 AI 交互如何碾压传统的 手机使用习惯以及App 生态。一旦用户习惯了“一句话解决问题”,就再也无法容忍在 App 之间手动跳转。这是一条不归路。
  • 车载向导(Guide Agent):车载语音正从“人工智障”进化为 Tesla Grok 这种具备动态导航能力的 Agent。它不再只是单一的执行命令,而是在理解你的意图和环境。交互的进化也是一条不归路,舒适区的迁移从来不可逆。

【下篇】认知的洗牌与商业的荒原

3.1 智力劳动的“碾压”:从程序员到分析师

2025 年,Coding Agent 和 Deep Research 模型不再是辅助工具,它们是“数字员工”。当 Agent 能够独立管理整个代码仓库,并在超长窗口中进行跨维度的长程推理时,初级白领的价值正在被迅速抹平。这不是竞争,这是维度的降临。

3.2 商业闭环的本质矛盾:企业上下文的“上下对进”

这是 2025 年最扎心的事实:95% 的 AI 应用未见商业闭环。

  • 白硕老师的深刻洞察:瓶颈在于“企业上下文(Enterprise Context)”的根源性矛盾。
  • 大师深度剖析:现存企业的上下文是在“非 AI 时代”构建的,那是一套自底向上、基于技术视角堆砌的底层代码和碎片化系统。而 AI 要求的语境是自顶向下的——先有大模型“本体”,再展开到具体的 LLM-native 数据落地。
  • 相向而行:对于存量企业,这要求一场脱胎换骨的“重治理”。这种从底层的技术重构到顶层业务逻辑的“上下对进”,正是 Palantir 等公司能在大模型时代横刀立马的关键。无法实现“AI 就绪”的企业,终将在黎明前的黑暗中耗尽氧气。

结语:在奇点之上,做清醒的观察者

2025 年不是一个终点,而是一个“旧世界”崩塌前的最后告别。

当搜索退居幕后,当交互重归自然,当 FSD 解放双手,我们作为“人类”的独特性究竟还剩下什么?或许,AGI 带来的最大礼物,就是逼迫我们从“做工”的琐碎中抽身,去追问关于存在的意义。

 

AI Reflections on 2025

When Agents Take Over the Entry Points: Search Moves to the Background, and Your Phone and Car Start “Doing Things for You”

In 2025, multimodal models and agents pushed AI from “answering questions” to “getting things done.” Suno v5 made it possible for ordinary people to reliably produce loop-worthy music; Sora 2 moved video generation from isolated clips toward storyboarded narratives with consistency; and widespread day-to-day use of FSD makes the safety conversation feel closer to apples-to-apples. A deeper shift is happening at the entry points: Google/OpenAI/Perplexity are driving search toward LLM-native experiences; the Doubao phone experience makes OS-level GUI agents tangible; and Tesla’s in-car Grok signals a transition from rigid voice commands to a true guide agent. The contrast between rapidly improving capability and slow commercial closure remains stark—but the bottleneck is moving from “model capability” to “system-level deployment.”

I’ve been in AI/NLP for a long time—embarrassingly long, perhaps fossil-level. But what shocked me most in 2025 wasn’t that “benchmarks got better again.” It was something more concrete: I repeatedly confirmed in everyday life that high-bar capabilities—things that used to require expert training and experience—are being productized, democratized, and then distributed at scale to ordinary users.

If we pull “AGI” down from metaphysics into an operational definition—the ability to stably match or approach human-expert output across multiple task domains—then 2025 is the first year I genuinely felt “partial AGI scenarios” landing in the real world: music creation, short-form video creation, autonomous driving, and a deeper entry-point revolution (search, phone interaction, in-car voice) all resonating at the same time.

As 2025 closes, I want to connect these seemingly separate shifts with one unified framework—and add a few personal “micro-cases,” so the argument doesn’t stop at industry buzzwords.


0) From “Information Entry Points” to “Action Entry Points”: Agents Are Eating the GUI

What truly happened in 2025 is a migration in how we enter and operate systems:

  • The old internet was GUI-driven: click buttons, open apps, hunt menus, click links.
  • More and more critical scenarios are becoming intent-driven: you say what you want; the system decomposes the task, calls tools, produces results, and continues executing.

If you break this into an “agent stack,” you’ll notice that music, video, driving, search, phone, and in-car experiences are all converging on the same engineering blueprint:

  1. Intent capture: natural language / voice / image becomes the primary interface
  2. Planning & decomposition: turn goals into executable multi-step tasks
  3. Tool use: call APIs—or directly operate across apps via the GUI (a GUI agent)
  4. Memory & personalization: continuously learn preferences, habits, and context
  5. Verification & governance: results are checkable, traceable, and risk-controlled

Once you see this, you realize: whoever owns the entry point rewrites the ecosystem. “Search moving to the background,” “the app economy being redefined,” and “in-car assistants evolving into guide agents” are not three different stories—they are three battlefields of the same story.


1) The Democratization of Music: Suno v5 Lets Even the “Musically Illiterate” Produce Loop-Worthy Songs Reliably

Suno’s version timeline mirrors 2025: v4 (2024.11) → v4.5 (2025.05) → v5 (2025.09). The company framed v5 as its most important technical leap—more coherent structure, more professional transitions, more natural audio and vocals—and rolled it out to Pro/Premier in late September 2025.

My micro-case: The “car-loop” bar gets broken

My personal metric is extremely simple: can it loop in the car without getting annoying? Not just self-indulgence—the loop has to survive real-world validation (starting with friends, family, and followers).

In 2025, with surprisingly little effort, I used Suno to create multiple loopable pop ballads / melancholic tracks. One of them is a breakup scene at “the last train, the platform”—that style of writing you probably know: catchy but not overstimulating, repetitive but not mechanical, sadness like steady, continuous drizzle. The key wasn’t “producing a melody.” It was that I could use plain language to tune the structure into a stable region—narrative density in the verses, emotional lift in the chorus, and the turning force of the bridge—iterating until it stayed listenable on repeat.

Historically, that was almost unthinkable for non-musicians. And even among experienced composers, truly loop-worthy—and widely loved—songs are the exception, not the norm.

The real meaning of music democratization isn’t “everyone becomes a musician.” It’s that ordinary people can reliably acquire a meaningful slice of a musician’s productivity—and experience the joy of creation and acceptance.


2) The Democratization of Video: Sora 2 Turns “Imagination” into “Deliverable Footage”

OpenAI released Sora 2 on September 30, 2025, positioning it as a flagship model with greater controllability, realism, stronger physical plausibility, and synchronized generation for video and audio (dialogue and sound). It also promoted an LLM-native “TikTok-like” creation flow via the Sora app and sora.com, along with social/entertainment community building.

My micro-case: From “cool clips” to storyboarded narrative production

I tried creating a short piece: an “80s campus romance.” Not a single flashy shot, but a storyboard organized into multiple scenes—opening mood, the first encounter, emotional progression, conflict and pause, and a final look-back. In early video models, the biggest pain point was character consistency and task consistency: you could easily get beautiful shots, but it was hard to carry the same person reliably across scenes.

In 2025, I felt—for the first time—that this started becoming “engineering-solvable.” You can treat it as a production pipeline rather than gambling on luck. Sora 2’s productization (clonable digital actors, controllable rendering, tooling, and distribution entry points) is pushing that transformation.

Short-form video’s red ocean gets reshaped not because AI merely boosts efficiency, but because it expands the deliverable boundary of imagination.


3) The Democratization of Autonomous Driving: FSD v14 and a Turning Point in Comparability

To me, the release of Tesla FSD v14 marks autonomous driving as effectively a “solved problem” in the sense that ordinary users can verify the experience for themselves. Since the end-to-end breakthrough with FSD v12 more than a year ago, the system has shown accelerating improvement, culminating in v14. My own experience—and feedback from many former skeptics after trying it—points in the same direction: FSD is at or above seasoned-driver level, not only smooth but also (per Tesla’s own statistics) significantly safer than average human driving (Tesla’s latest narrative often cites figures like “7× fewer accidents”). Tesla also describes “unsupervised” driving as beginning limited deployments in parts of Texas, and positions the Cybercab—purpose-built for robotaxi service—as scaling production in 2026: no steering wheel, no pedals, relying entirely on FSD, with extremely rare edge cases potentially requiring remote intervention (on the order of once per ~10,000 miles at most).

My micro-case: “Near-100% FSD usage” creates an apples-to-apples intuition

I used to be a skeptic—at least a sympathetic skeptic. The reason is straightforward: Autopilot-era statistics are easy to challenge. In complex, risky, or ambiguous situations, humans are more likely to disengage the system and take over, making “it’s safer when enabled” look better than it truly is—a potentially misleading selection bias.

But today, the driving behavior of many owners (including me) has changed structurally. In the first few days after getting a new car, I used FSD for almost 100% of my mileage—except small maneuvers like intervening when I didn’t like the parking spot FSD chose and explicitly directing it to a specific space. Under this “coverage near saturation” usage pattern, selection bias shrinks significantly—at least in the sense of the same driver, same car, same living radius, which feels much closer to apples-to-apples. That’s why when Tesla continues to use “fewer collisions than the U.S. average (e.g., 7×)” as part of its narrative, my intuition about comparability is stronger than it used to be—while I fully acknowledge that methodological controversy in society still exists, and should exist.

The shift in 2025 isn’t that “the controversy disappears.” It’s that changes in user behavior begin to weaken the most central controversy point (selection bias). The discussion naturally moves from “can it?” to “where are the boundaries, and how do we govern it safely?”


4) Search Is Destined to Be Rebuilt: The Old Keyword-Auction World Starts to Loosen

“Search moving to the background” is not about dismissing search; it’s about search evolving from “link retrieval” to an entry point that fuses answers with action.

Three threads converged in 2025:

  1. Google’s self-revolution: expanding AI Overviews and introducing experimental AI Mode—explicitly pushing search toward a more conversational, integrated “Q&A + reasoning + browsing” experience. They even introduced more personalized result rendering and call it “generative UI.”
  2. OpenAI entering the core search/browsing arena: ChatGPT Search was updated on Feb 5, 2025 to be available in supported regions to everyone without sign-in, and the company kept accelerating productization and capability.
  3. Perplexity capturing “answer engine” mindshare while triggering copyright conflict: late-2025 lawsuits (e.g., the Chicago Tribune case) put the impact of LLM-native search on content ecosystems and traffic allocation directly under the spotlight.

What truly destabilizes the old business model is this: when users stop “clicking links” and instead get a first-screen AI result that they can keep interrogating and can directly act on, keyword auctions won’t vanish overnight—but they will be forced to migrate into new placements and new attribution logic. Google itself is actively discussing marketing and reach strategies under AI Mode / AI Overviews, which is essentially a self-cannibalizing transformation of the business model.


5) Phone Use: Doubao Makes OS-Level GUI Agents Tangible—and It Feels Like a One-Way Road

The “phone use revolution” matters because it touches the foundation of the app economy.

In early December 2025, ByteDance released the “Doubao Phone Assistant (technical preview)” and partnered with phone makers, describing it as an OS-level capability: it can see the screen, use apps, and execute cross-app tasks (organize files, fill forms, recommend restaurants, etc.). In essence, it upgrades “operating a phone” from click workflows to an intent-driven interactive GUI agent. Voice is the most natural interface for humans—our devices should not be the exception.

My micro-case: Why it feels irreversible

The shock of an OS-level agent isn’t “yet another assistant.” It’s that it changes the behavioral economics. Once you’ve experienced “say one sentence and it runs dozens of clicks for you,” it’s hard to tolerate the old mode. Apps stop being “products directly operated by users” and start looking more like backend services invoked by agents.

Once that path is real, competition in the phone industry shifts from “hardware specs + app ecosystem” to “OS-level agent capability + tool authorization frameworks + safety governance.”


6) In-Car Voice: From “Artificial Stupidity” to a Real-Time Guide Agent

Historically, in-car assistants had one fatal flaw: they could only execute single, rigid commands—no multi-turn dialogue, little context, and no “dynamic navigation and explanation.” Many people call them “artificial stupidity.”

Tesla’s 2025 Holiday Update indicates that Grok can add/edit navigation destinations, handle multiple destinations in a single instruction, support multi-turn interaction, and dynamically update the route.

This may sound small, but it’s a big signal: in-car voice is evolving from a one-command “menu remote” into a guide agent—it can understand intent, sustain dialogue, and revise plans in real time. Combine it with FSD, and you get a sharper thesis:

  • FSD answers: how the car drives.
  • The in-car voice agent answers: where you’re going, why, and what you can do along the way.
  • Together, they form the early shape of a complete mobility agent.

7) Coding Agents and Deep Research: The White-Collar Skill Crash Test Zone

By late 2025, coding agents covering junior-engineer throughput and deep-research systems approaching or exceeding senior analyst output and quality are no longer a question of “can it?” The real question is: how do you integrate it, validate it, and assign accountability to maximize returns.

Their common thread with search/phone/in-car shifts is still the same framework: from information to action, from tool to workflow.


8) The Most Painful Contrast: Capability Explodes, but Commercial Closure Is Still Missing at Scale

In 2025, MIT-related research was widely cited in the media as “95% of GenAI pilots failed to produce measurable ROI,” with the causes pointing to integration, priority mismatch, and organizational friction.

1) Enterprise context is genuinely hard: RAG alone won’t save you

Enterprise context is not a knowledge base—it’s a living system: permissions, responsibility chains, exception processes, inconsistent definitions, legacy systems, and tacit rules. Many failures aren’t “the model can’t answer,” but “the system doesn’t know which path to follow, which interface to call, or who must sign off.”

2) Organizational friction is equally hard—and often more decisive than tech

Even if context can be engineered, enterprises may still resist letting agents take over: compliance/security/procurement/legal/IT gates can grind demos into molasses. Add KPI risk, reputational risk, and dependence on legacy workflows.

So the confusion remains: is context engineering still insufficient, or is it organizational inertia and human barriers? The more accurate answer now is: both, compounded. And in the next few years, the latter (organizational friction) may be even more decisive for deployment speed.

My own view: commercial closure won’t arrive simply by waiting for stronger models. It requires turning agents into deliverable systems through three conditions:

  • Verifiable (metrics and replay)
  • Accountable (responsibility chains and permissions)
  • Embeddable (fits into existing workflows)

Closing: 2025 Is the Eve of AGI

AGI won’t arrive as a single thunderclap. It arrives when entry points are taken over by agents—and suddenly the old way of operating the world feels clumsy, expensive, and unsustainable.

What I see as deterministic after 2025:

  • Search is moving from links to answers-and-action, loosening the old traffic allocation logic.
  • Phones are moving from a collection of apps to OS-level agent orchestration; apps are redefined as callable services.
  • In-car systems are moving from single command execution to dynamic guide agents, and together with autonomous driving they form the early outline of a mobility agent.

Once these entry points solidify, even the question “Why is AI so hard to commercialize?” must be reframed: it’s not “do you have a model,” but “do you have a system.” Not “can you build it,” but “can you own responsibility, validate outcomes, and embed at scale.”

 

2025 年 AI 感怀

当入口被 Agent 接管,搜索退居后台,手机与汽车开始“替你办事”

2025 年,多模态与 agent 把 AI 从“会回答”推进到“会办事”。Suno v5 让普通人稳定产出可循环音乐;Sora 2 把视频从片段生成推向分镜与一致性生产;FSD 的高覆盖使用让安全讨论更接近 apples-to-apples。更深层的革命发生在入口:Google/OpenAI/Perplexity 把搜索推向 LLM-native 的渲染,豆包手机让 OS 级 GUI agent 可触摸,Tesla Grok 让车载语音向导化。能力狂飙与商业闭环反差巨大,但瓶颈正在从“模型能力”转向“系统化落地”。

我做 AI/NLP 很久了,不好意思,可能是化石级的存在;但 2025 年最让我震撼的并不是“模型评测又强了多少”,而是我第一次在日常里得到反复确认:一些过去需要专家级经验的高门槛能力,正在被产品化、被民主化,进而被规模化地分发给普通人。

如果把“AGI”从玄学拉回到可操作的定义——在多个任务域里稳定达到或逼近人类专家的产出能力——那么 2025 是我第一次切身体验到“部分 AGI 场景落地”的一年:音乐创作、短视频创作、自动驾驶,以及更底层的入口革命(搜索、手机交互、车载语音)开始同频共振。

2025年终前,我想用一个统一框架把这些看似分散的变化串起来,并补上我自己手上的几个“微案例”,让判断不止停留在行业热词。


零、从“信息入口”到“行动入口”,Agent 正在吞掉 GUI

2025 年真正发生的,是入口形态的迁移:

  • 过去的互联网是 GUI(图形界面)驱动:人点按钮、开 App、找菜单、点链接。
  • 现在越来越多关键场景开始变成 Intent(意图)驱动:人说“我想要什么”,系统自己拆任务、调用工具、给出结果并继续执行。

把这件事拆成一个“Agent 栈”,你会发现音乐、视频、驾驶、搜索、手机、车载,底层其实是同一种工程路线:

  1. 意图捕获:自然语言/语音/图像输入成为主入口
  2. 规划与分解:把目标拆成多步可执行任务
  3. 工具使用:调用 API、或直接在 GUI 上跨 App 操作(GUI agent)
  4. 记忆与个性化:持续理解你的偏好、习惯与上下文
  5. 验收与治理:结果可验证、可追溯、可控风险

你会看到:谁掌握入口,谁就重写生态。于是“搜索退居后台”、“App 生态被重定义”、“车载助手从指令执行变成向导 agent”并不是三件事,而是一件事的三个战场。


一、音乐民主化:Suno v5 让“乐盲”也能稳定产出可循环的歌

Suno 的版本演进很能代表 2025:v4(2024.11)→ v4.5(2025.05)→ v5(2025.09)。官方把 v5 定义为“最重要的一次技术跃迁”,强调结构连贯、过渡更专业、音质与人声更自然,并在 2025 年 9 月下旬向 Pro/Premier 推出。

我的微案例(车载循环门槛被击穿)
我自己最信的标准非常朴素:能不能车载循环不腻。不仅是自我陶醉,而是要有共鸣的验证(先从亲友和 folowers开始)。

2025 年,没费什么力气,我就用 Suno 做过多首“可循环播放的流行抒情/伤感歌”,其中一首写的是“最后一班地铁、月台”的分手场景(你知道那类写法:旋律抓耳但不过度刺激、结构重复但不机械,忧伤像连绵的细雨)。最关键的不是“写出一段旋律”,而是我能用自然语言把结构调到一个稳定区间——Verse 的叙事密度、Chorus 的情绪提升、Bridge 的反转力度,反复迭代到“循环也不烦”。这在过去对非音乐人来说几乎不可想象(其实资深音乐人中要制作可以让人车载循环,甚至家喻户晓的歌曲的,也只是少数人,在少数的作品中)。

音乐民主化真正的含义不仅仅是“人人可成音乐家”,而是:普通人第一次能稳定获得音乐家的(部分)生产力,并体验创造以及被接受的乐趣


二、视频民主化:Sora 2 把“会想象”变成“能成片”

OpenAI 在 2025 年 9 月 30 日发布 Sora 2,并将其定位为更可控、更真实、更贴近物理世界、同时支持同步对白与音效的旗舰视频与音频同步生成模型,并以 Sora App 与 sora.com 推广LLM-native的“类抖音”使用链路,及其社交与娱乐社区的建设。

我的微案例(从“片段生成”到“可叙事的分镜生产”)
我做过一个“80 年代校园恋曲”的短片尝试:不是单段炫技镜头,而是按 n 个 scene 的分镜组织(开场氛围、人物相遇、情绪推进、冲突与停顿、尾声回眸)。在早期视频模型里,最大痛点是角色一致性与任务一致性:你很容易得到“好看的镜头”,但很难把同一个人稳定地带过多个 scene。2025 年我第一次感觉到这件事开始变得“工程化可解决”——你可以把它当作一种生产流程,而不是赌运气。Sora 2 的产品化(数字演员可克隆、渲染可控性、工具链、分发入口)本质上在推动这种转变。

短视频的红海之所以会被重构,是因为 AI 不只是提效,而是在扩大想象力的“可交付边界”。


三、自动驾驶民主化:FSD v14 带来的“可比性”转折点

Tesla FSD V14 的推出标志着自动驾驶已经是一个 solved problem,人人可验证。自从一年多前 FSD V12 端到端模型的突破,自动驾驶展现了加速度提升的趋势,直到不久前 FSD V14 的推出。自己的亲身体验以及很多怀疑论者体验后的反馈都指向了这个事实:FSD 已经达到或超过老司机的驾驶水平,不仅丝滑顺畅,而且安全性比人类驾驶的平均水品高(特斯拉最新的统计是比人类驾驶减少7倍的事故)。真正的FSD无人驾驶(特斯拉称为“无监督驾驶”)现在已经在得克萨斯部分区域开始上路。特斯拉专为无人出租设计的 Cybercab 2026年就会规模化量产:这些车辆没有方向盘和脚踏板,全靠FSD实现无人驾驶(可能在极为罕见的特殊情形下,需要远程干预,“极为罕见”指的是大约每一万英里车程最多出现一次这种情形)。

我的微案例(“几乎全程 FSD”带来的 apples-to-apples 直觉)
我以前也是怀疑派或“同情怀疑派”。原因很简单:Autopilot 时代的统计很容易被质疑——遇到复杂、危险或不确定时,人更可能退出系统、手动接管,从而让“开启系统时更安全”显得更漂亮,有潜在的误导性。

但现在多数车主(包括我自己)的驾驶行为发生了结构性变化。拿到新车的几天里,我几乎 100% 的里程都在用 FSD(除了当我不满意FSD给我选择的停车位而干预,告诉FSD指定车位停车这种零碎动作)。在这种“覆盖率接近满值”的使用形态下,选择偏差会显著缩小,至少在“同一个驾驶者、同一辆车、同一生活半径”意义上更接近 apples-to-apples。于是当 Tesla 继续用“相对美国平均水平碰撞更少(例如 7x)”的叙事时,我对其可比性的直觉确实比过去更强——尽管方法学层面的社会争议仍然存在。

2025 年的变化不在于“争议消失”,而在于用户行为改变使得关键争议点(选择偏差)开始被削弱;于是讨论重心会从“能不能”转向“边界在哪里、怎么治理更安全”。


四、注定被重构的搜索:关键词竞价的旧世界开始松动

“搜索退居后台”并不是唱衰搜索,而是搜索的形态正在从“链接检索”变成“答案与行动的协同入口”。

三条线索在 2025 年同时成立:

  • Google 的自我革命:扩展 AI Overviews,并引入实验性的 AI Mode,明确把搜索推向更对话式、更综合的“问答+推理+浏览”体验。他们甚至率先推出了千人千面的结果渲染方式,称为 generative UI。
  • OpenAI 进入 search/browsing 主战场:ChatGPT search 在 2025 年 2 月 5 日更新为“在可用地区对所有人开放、无需注册”,并持续加码搜索能力与产品化节奏。
  • Perplexity 抢占“答案引擎”心智,同时引爆版权冲突:2025 年末围绕 Perplexity 的新闻诉讼(例如 Chicago Tribune 起诉)把“LLM-native search”对内容生态与流量分配的冲击推到台前。

真正会动摇旧商业模式的点在于:当用户不再“点链接”,而是“在 AI 首屏得到可继续追问、可直接行动的结果”,关键词竞价仍会存在,但会被迫迁移到新的版位与新的归因逻辑里。Google 自己也在讨论 AI Mode/AI Overviews 语境下的营销与触达路径,这本质上是一次自我吞噬式的商业模式转型。


五、Phone use:豆包手机把 OS 级 GUI Agent 变成了可触摸的现实

“phone use 革命”很关键,因为它触碰的是 App 生态的地基。

ByteDance 在 2025 年 12 月初推出“豆包手机助手技术预览版”,并与手机厂商合作,将其描述为 OS 级能力:可以看屏幕、用 App、跨应用执行任务(整理文件、填表、推荐餐厅等),本质上是把“操作手机”从点击流程升级为意图驱动的交互式 GUI agent。语音是人类最自然的交互方式,人机交互不再例外。

我的微案例(为什么它是“不归路”)
OS 级 agent 的震撼不在于“又一个助手”,而在于它改变了行为经济学:当你体验过“说一句话,它替你跑完几十次点击”,你很难再回到旧方式。于是 App 不再是“用户直接操作的产品”,而更像“agent 调用的底层服务”。这条路一旦成立,手机行业的竞争维度就会从“硬件参数 + App 生态”转向“OS 级代理能力 + 工具授权体系 + 安全治理”。


六、车载语音:从“人工智障”到实时向导 Agent

车载助手过去最大的问题是:它只会执行单一的固定指令,无法多轮交互,缺乏上下文,更缺乏“动态导航与解释”,很多人称之为“人工智障”。

2025 年 Tesla Holiday Update 的信息显示:Grok 已支持添加/编辑导航目的地,并可在指令里处理多个目的地,并可以多轮交互,动态更新旅程线路。

这件事看似小,但意义非常大:它表明车内语音开始从单一指令的“菜单遥控器”进化为guide agent——能理解意图、能连续对话、能实时改计划。把它与 FSD 放在一起看,你会得到一个更锋利的判断:

  • FSD 解决的是“车怎么开”;
  • 车载语音 agent 解决的是“你要去哪里、为什么去、顺路还能做什么”;
  • 两者结合,才是完整的“移动场景代理”。

七、Coding agent 与 deep research:白领技能被碾压的试验场

到 2025 年末,coding agent 覆盖初级工程师的代码产出、deep research 逼近或超越高级分析师的产能与品质,已经不再是“能不能”的问题,而是要讨论“怎么嵌进组织、怎么验收、怎么负责”,才能最大化其收益。它们与搜索/手机/车载的共同点仍然是同一个框架:从信息到行动,从工具到流程。


八、最扎心的反差:能力狂飙,但商业闭环大面积缺失

MIT 相关研究在 2025 年的报告语境下被媒体广泛引用为“95% 的 GenAI 试点没有产生可衡量 ROI”,并将原因指向集成、优先级错配、以及组织层面的摩擦。

1)企业上下文确实难:不是 RAG 一把梭能补齐

企业上下文不是知识库,是活系统:权限、责任链、例外流程、口径冲突、遗留(legacy)系统、隐性规则。很多失败不是“模型不会答”,而是“系统不知道该走哪条路、调谁的接口、谁来最终签字”。

2)组织摩擦同样难:往往比技术更决定节奏

哪怕上下文能补齐,企业也不一定愿意让 agent 接管:合规、安全、采购、法务、IT 的串联门槛会把 demo 磨成龟速;此外还有 KPI 风险与声誉风险,以及对 legacy 流程的路径依赖。

困惑是——到底是 context 工程还不够,还是企业惰性与人为障碍?现在看来,更准确的答案是:两者叠加。并在今后几年,后者(组织摩擦)可能更决定落地速度。

我自己的判断是:商业闭环不是“等模型更强”就自然出现,而要靠三件事把 agent 变成可交付系统:

  • 可验收(指标与回放)
  • 可负责(责任链与权限)
  • 可嵌入(进入现有工作流)

结语:2025 是AGI前夜

AGI 的到来不会是一声惊雷,而是一连串入口被 Agent 接管后,旧世界的操作方式突然显得笨拙、昂贵、且不可继续。

2025 年我看到的确定性是:

  • 搜索正在从链接走向答案与行动,旧流量分配逻辑开始松动;
  • 手机正在从 App 集合走向 OS 级代理调度,App 被重定位为“可调用服务”;
  • 车载正在从指令执行走向 guide agent,与自动驾驶一起构成移动场景代理的雏形。

当这些入口同时成立,“AI 应用为什么很难商业闭环”的问题,也会被换一种问法:不是“有没有模型”,而是“有没有系统”;不是“能不能做”,而是“能不能负责、能不能验收、能不能规模化嵌入”。


 

 

正常的模型反哺不会导致模型坍塌

某些关于再生数据造成“模型坍塌 (Model Collapse)”的说法其实是危言耸听,模型反哺造成 Self-Improvement (自我进化) 具有内在的根本逻辑:只要存在“优胜劣汰”的拣选机制,合成数据就不是“近亲繁殖”,而是“定向进化”。

1. 为什么“模型坍塌”在工程上是伪命题?

那些声称“模型吃合成数据会变傻”的论调,通常预设了一个天真甚至愚蠢的前提:无差别的递归训练 (Naïve Recursive Training)

他们是这样想/做/论的:

  1. 模型生成 100 条数据(好坏参半)。

  2. 不加筛选,把这 100 条全喂回去训练下一代。

  3. 循环 N 次。

结果:当然会坍塌!就好比一张图片被复印N次,只会越来越糟。

但现实是:

没有任何一个正常的算法(工程师)会这么干。默认的practice是 Rejection Sampling (拒绝采样):

  1. 模型生成 100 条数据。

  2. Verifier/Human 介入:砍掉 90 条,只留 10 条最好的(Advantage 恒大于 0)。

  3. 用这 10 条精英数据训练下一代。

数学推导:

只要 Mean(Selected Data) > Mean(Current Model Policy),模型在下一轮的平均水平必然上升。

这不叫坍塌,这叫 Distillation of Success (成功的蒸馏)。

2. “反哺”的本质:把长尾变成主流

想象一个正态分布曲线(模型的输出质量):

  • 左尾:胡说八道。

  • 中间:平庸的回答。

  • 右尾 (The Long Tail):偶尔出现的灵光一现(高智商回答)。

我们的拣选机制(Verifier/Checklist),本质上就是一个滤波器。我们只把右尾的那部分剪下来,当作 Ground Truth 去训练模型。

通过训练,模型会将概率密度向右移动——把“偶尔的灵光一现”,变成“稳定的肌肉记忆”。

这就是 AlphaGo 为什么能左脚踩右脚上天,也是现在 LLM 能做推理强化的底层逻辑。

3. “自生自灭”的 AIGC 达尔文主义

“AIGC 在互联网上自生自灭”,可以称为 RLHF at Internet Scale (互联网规模的 RLHF)。例如:

  • 生成:Midjourney 每天生成 1000 万张图。

  • 筛选 (Environment Reward):只有那些被用户保存、转发、点赞的图,才会留存在互联网的显眼位置。烂图都在缓存里被删了。

  • 结果:下一代模型再去爬取互联网数据时,爬到的全是经过人类审美筛选过的合成数据。

所以,互联网并没有被合成数据污染,它只是经历了一次更残酷的自然选择。留下来能被再次爬取到的,本质上已经是“人类偏好”的结晶。


4. 风险:不是“变傻”,而是“变窄”

既然模型不会退化,那我们在用合成数据时,到底在防备什么?

其实不是 Model Collapse (模型坍塌/变傻),而是 Mode Collapse (模式坍塌/变窄)

目前做法的副作用可能有:

  • 筛选器的偏见:如果我们的 Verifier(或者人类点赞)只喜欢某种特定的风格(比如“条理清晰的八股文”)。

  • 多样性丧失:经过多轮迭代后,模型生成的每一句话都极度完美、极度正确,但也极度同质化。它可能失去了那种“有点混乱的创造力”。

但这在工业界通常是可以接受的代价。 尤其是对于写代码、做数学、看财报来说,我们不需要它“五花八门”,我们需要它“收敛到真理”。

总结

“模型退化论”在有严格 Verifier 的系统中就是无稽之言。

  • 没有筛选的合成数据 = 近亲繁殖 = 畸形。

  • 经过严选的合成数据 = 优生优育 = 进化。

数据飞轮 (Data Flywheel) 之所以能转起来,全靠这个 Delta —— 即筛选后的数据质量与模型平均质量的差值。只要这个 Delta 是正的,模型就会一直变强,直到触碰到 Verifier 本身的天花板(Teacher 的判断力上限)。

多模态进化论:从“看图说话”到“原生直觉”

我们经常感叹现在的 AI 能看懂复杂的梗图,甚至能像物理学家一样分析视频里的运动轨迹。剥开那些炫酷的 Demo,核心的竞争壁垒其实主要是两件事:给模型吃什么(数据形态),以及让模型怎么学(训练范式)

我们拆解一下,模型是如何进化成懂物理、懂逻辑的“原生多模态生物”的。

一、 数据形态:决定智商上限的“燃料”

模型最终能有多聪明,取决于它吃的是“快餐”还是“正餐”。

1. 图文对 (Image-Text Pairs):高效的“单词卡片”

这是多模态起步时代的产物(如 CLIP/LAION)。

  • 形态:一张图 + 一句短描述(Caption)。

  • 本质:这就像给婴儿看“识字闪卡”。正面画着猫,反面写着“猫”。

  • 局限:"Bag-of-Objects"(物体词袋)偏差。模型通过这种数据只能学会“点名”——它知道画面里有“人”、有“雨”、有“笑容”,但它无法理解这些元素之间的逻辑。
    • 经典幻觉:看着一个人在雨中大笑,模型却说他很悲伤。因为它记住了“雨=悲伤”的文本统计规律,却常常看不懂画面里的情绪反差。

2. 原生交错数据 (Native Interleaved Data):连贯的“教科书”

这是 Gemini、GPT-4V 等多模态原生模型的关键数据。

  • 形态文本 -> 图片 -> 文本 -> 视频 -> 文本

  • 本质:这是人类观察世界的真实方式——连续、有因果、有上下文。

  • 魔力:学会“预期违背”。当模型读到:“宣传册上是豪华海景房,然而当我推开门……” 随后看到一张破烂杂乱的照片。

    为了预测这张烂照片,模型必须理解 “然而” 代表逻辑反转。这就是推理能力的涌现时刻。


二、 训练范式的代际跨越:从“拼接”到“原生”

旧范式:先认字,后读书(LLaVA Style)

早期做法是“拼接”。

  1. 预热期:先喂海量“单词卡片”,把视觉编码器(眼睛)和 LLM(大脑)强行对齐,解决“语言不通”的问题。

  2. 微调期:最后才喂少量“教科书”来教指令跟随。

  • 缺点:根基不稳。模型本质上还是一个翻译官,看着图片翻译成词,再用语言逻辑去猜。

新范式:原生直觉 (Native from Day 1)

现在的趋势(如 Gemini)是大一统

  • 策略:从预训练的第一天起,就大量注入原生交错数据

  • 效果:模型不需要“翻译”。视觉 Token 和文本 Token 在它的神经网络里是平权的。它不是“学会了”物理定律,而是通过预测下一个 Token,“直觉”地掌握了物理世界。
    • 例子:预测玻璃杯掉落。模型并不是在脑子里检索“玻璃易碎”的文本知识,而是视觉 Token [玻璃] + [下落] 直接触发了 [破碎] 的预测路径。这是一种类似人类的物理直觉。


三、 终极抉择:量子坍缩与思维链

当模型有了直觉,下一步就是处理复杂的逻辑难题(Math/Coding)。这里,AI 界正面临一个哲学层面的技术分歧。

1. 显式思考 (O1 路线):忍受“量子坍缩”

目前的当红炸子鸡(以OpenAI o系列为代表)选择让模型把思考步骤一步步写出来(Token 化)。

  • 比喻:Token 化就像量子坍缩。思维原本是高维、连续、充满可能性的波函数(Hidden State),一旦被输出成 Token(文字),就瞬间坍缩成了一个确定的、离散的符号。
  • 代价信息损耗。大量模糊的、并行的直觉在变成文字的那一刻丢失了。

  • 收益可解释性。虽然笨,但我们能看懂它在哪一步想歪了,并且为每一步打分的过程奖励(Process Reward)留下了强化空间。

2. 隐式思考 (Latent Reasoning):沉默的螺旋

另一派认为,真正的天才不需要喋喋不休。

  • 愿景:让模型在黑盒子里(Latent Space)默默计算 10 秒钟,利用高维向量的并行优势,直接吐出完美答案。

  • 阻碍:“可解释性税” (The Interpretability Tax)。工程界目前不大敢买单。一个深不可测、难以调试的黑盒天才,在安全对齐(Alignment)面前可能是一场噩梦。

结语

多模态大模型的进化史,就是一部从“拼接”走向“原生”,从“模仿”走向“直觉”的历史。

现在的我们,正站在显式思考(Chain of Thought)的高地上,试图通过堆砌 Token 来模拟人类的理性。但也许在不远的将来,当这一波 Scaling Law 撞墙时,那个沉默思考的“Latent 模型”,也许手里有一把通往 AGI 的钥匙。

大模型训练的数据“炼金术”

立委按:在 Transformer 架构趋同的今天,大模型的性能很大程度上决定于数据工作的极致程度。大模型训练数据工作的“后厨”包括从去重算法到数据退火策略等一系列“魔鬼细节”。

在当今的 AI 圈子里,有一个共识:如果说 Infra(基础设施) 是现代化的厨房,Algorithm(算法) 是精湛的烹饪技艺,那么 Data(数据) 就是决定菜肴最终品质的食材。

随着模型架构(Architecture)的红利逐渐收窄,"Data-Centric AI"(以数据为中心的 AI)成为了主战场。数据工作有哪些决定模型智力天花板的细节呢?

1. 数据的“提纯”工艺:从网络废料到精装书

"Garbage In, Garbage Out" 是机器学习的常识。但LLM 的数据工作不仅仅是简单的清洗,而是一场精密的数据外科手术。

直观感受:什么是“好”数据?

我们常说的“清洗”,其本质是信噪比(Signal-to-Noise Ratio)的提升。让我们看一个真实的 CommonCrawl 网页数据处理前后的对比:

维度 原始数据 (Raw Web Data) 🔴 清洗后数据 (Refined Data) 🟢
内容片段 <div>广告:点击购买... <br> 楼主:不懂别乱说... 2023-05-12 热力学第二定律表明,孤立系统的熵永远不会减少...
特征 包含 HTML 标签、导航栏噪声、情绪化宣泄、无关广告。 语义连贯、逻辑完整、格式标准。
模型视角 噪声掩盖了语义,模型容易学到“点击这里”这种无意义短语。 信息密度高,模型能专注于学习知识推理。

隐形的魔鬼:去重 (Deduplication)

仅仅洗干净还不够,最大的隐患在于重复。研究表明,如果训练集中包含大量重复文本,模型就会倾向于“死记硬背” (Memorization) 而非 “泛化规律” (Generalization)

但互联网充满了“洗稿”和转载,简单的字符串匹配(Exact Match)对此无能为力。业界标准是引入 MinHash LSH (Locality Sensitive Hashing) 算法:

  • 指纹识别:它不比较整篇文章,而是提取文章特征的哈希“指纹”。

  • 模糊去重:即使两篇文章改了几个词、换了段落顺序,只要 Jaccard 相似度 超过阈值(通常设为 0.7-0.8),算法就能识别出它们是“软重复”并进行剔除。

这一步至关重要:它不仅防止模型“作弊”,还能显著提升训练效率——毕竟,没人想花几百万美元让 GPU 反复阅读同一篇新闻通稿。

2. 洁癖的代价:教科书 vs. 烟火气

微软的 Phi 系列证明了“教科书级”数据能带来极强的推理能力。但是,数据并非越干净越好。

如果我们只用完美的“温室数据”训练,模型会变成一个“高智商的书呆子”:逻辑推理极强,但面对用户充满口语、俚语甚至错别字的真实 Prompt 时,会因为 OOD (Out-Of-Distribution) 问题而表现出较差的鲁棒性。

解决方案:数据退火 (Data Annealing)

为了兼顾“聪明”和“接地气”,业界借鉴了人类的学习路径,采用 “先博学,后专精” 的课程学习策略:

  1. 前期(博学):喂食海量、多样化的网络数据,增加模型的见识和对噪声的容忍度。

  2. 后期(冷却/Cool-down):在训练的最后阶段(如最后 10% 的 Token),集中使用高质量的“教科书”数据进行冲刺,强行把模型的思维拉回到严谨、逻辑的轨道上。

3. 寻找黄金配方:为什么是 7B?

数据配比(Mix Ratio)是训练中的 secret source。代码、数学、通识文本该按什么比例混合性能效果最佳?这需要大量的 消融实验 (Ablation Studies)

这里存在一个 Scaling Laws 的非单调性陷阱:

  • 1B 模型 太弱,往往靠死记硬背,无法反映逻辑数据的价值。

  • 100B 模型 太贵,无法支持高频试错。

因此,7B - 8B 成为了业界的“黄金尺寸” (Proxy Model)。它既处于涌现能力 (Emergent Abilities) 的临界点,具备了初步逻辑能力,又是单张消费级显卡能跑得起来的上限,是验证数据配方的比较合适的实验台。

4. 评估的陷阱:是学会了,还是见过了?

当我们发现某个配方能显著提升 Benchmark(如 GSM8K)的分数时,必须警惕 基准测试泄露 (Decontamination)

虽然我们应该从训练集中剔除测试题,但 过度清洗 (Over-cleaning) 会导致模型“脑白质切除”。如果我们把所有“长得像数学应用题”的数据都为了避嫌而删掉,模型虽然没见过原题,但也失去了学习“解题范式”的机会。

结论:在“去污”和“保留多样性”之间寻找平衡,是数据科学家的走钢丝艺术。

下一站,合成数据

当人类产生的优质互联网文本快要被“吃光”时,数据工作的下一站已经很明确了:合成数据 (Synthetic Data)

利用强模型生成数据来训练弱模型(Distillation),或者通过自我博弈(Self-Play)来进化,正在成为突破天花板的新燃料。在未来,谁能构建出更高效的“数据合成工厂”,谁就掌握了通往 AGI 的钥匙。

“如果未来的模型大多由合成数据训练,AI 产生的‘近亲繁殖’会导致智能退化吗?”