我们经常感叹现在的 AI 能看懂复杂的梗图,甚至能像物理学家一样分析视频里的运动轨迹。剥开那些炫酷的 Demo,核心的竞争壁垒其实主要是两件事:给模型吃什么(数据形态),以及让模型怎么学(训练范式)。
我们拆解一下,模型是如何进化成懂物理、懂逻辑的“原生多模态生物”的。
一、 数据形态:决定智商上限的“燃料”
模型最终能有多聪明,取决于它吃的是“快餐”还是“正餐”。
1. 图文对 (Image-Text Pairs):高效的“单词卡片”
这是多模态起步时代的产物(如 CLIP/LAION)。
-
形态:一张图 + 一句短描述(Caption)。
-
本质:这就像给婴儿看“识字闪卡”。正面画着猫,反面写着“猫”。
- 局限:"Bag-of-Objects"(物体词袋)偏差。模型通过这种数据只能学会“点名”——它知道画面里有“人”、有“雨”、有“笑容”,但它无法理解这些元素之间的逻辑。
-
经典幻觉:看着一个人在雨中大笑,模型却说他很悲伤。因为它记住了“雨=悲伤”的文本统计规律,却常常看不懂画面里的情绪反差。
-
2. 原生交错数据 (Native Interleaved Data):连贯的“教科书”
这是 Gemini、GPT-4V 等多模态原生模型的关键数据。
-
形态:
文本 -> 图片 -> 文本 -> 视频 -> 文本。 -
本质:这是人类观察世界的真实方式——连续、有因果、有上下文。
- 魔力:学会“预期违背”。当模型读到:“宣传册上是豪华海景房,然而当我推开门……” 随后看到一张破烂杂乱的照片。
为了预测这张烂照片,模型必须理解 “然而” 代表逻辑反转。这就是推理能力的涌现时刻。
二、 训练范式的代际跨越:从“拼接”到“原生”
旧范式:先认字,后读书(LLaVA Style)
早期做法是“拼接”。
-
预热期:先喂海量“单词卡片”,把视觉编码器(眼睛)和 LLM(大脑)强行对齐,解决“语言不通”的问题。
-
微调期:最后才喂少量“教科书”来教指令跟随。
-
缺点:根基不稳。模型本质上还是一个翻译官,看着图片翻译成词,再用语言逻辑去猜。
新范式:原生直觉 (Native from Day 1)
现在的趋势(如 Gemini)是大一统。
-
策略:从预训练的第一天起,就大量注入原生交错数据。
- 效果:模型不需要“翻译”。视觉 Token 和文本 Token 在它的神经网络里是平权的。它不是“学会了”物理定律,而是通过预测下一个 Token,“直觉”地掌握了物理世界。
-
例子:预测玻璃杯掉落。模型并不是在脑子里检索“玻璃易碎”的文本知识,而是视觉 Token
[玻璃]+[下落]直接触发了[破碎]的预测路径。这是一种类似人类的物理直觉。
-
三、 终极抉择:量子坍缩与思维链
当模型有了直觉,下一步就是处理复杂的逻辑难题(Math/Coding)。这里,AI 界正面临一个哲学层面的技术分歧。
1. 显式思考 (O1 路线):忍受“量子坍缩”
目前的当红炸子鸡(以OpenAI o系列为代表)选择让模型把思考步骤一步步写出来(Token 化)。
- 比喻:Token 化就像量子坍缩。思维原本是高维、连续、充满可能性的波函数(Hidden State),一旦被输出成 Token(文字),就瞬间坍缩成了一个确定的、离散的符号。
-
代价:信息损耗。大量模糊的、并行的直觉在变成文字的那一刻丢失了。
-
收益:可解释性。虽然笨,但我们能看懂它在哪一步想歪了,并且为每一步打分的过程奖励(Process Reward)留下了强化空间。
2. 隐式思考 (Latent Reasoning):沉默的螺旋
另一派认为,真正的天才不需要喋喋不休。
-
愿景:让模型在黑盒子里(Latent Space)默默计算 10 秒钟,利用高维向量的并行优势,直接吐出完美答案。
- 阻碍:“可解释性税” (The Interpretability Tax)。工程界目前不大敢买单。一个深不可测、难以调试的黑盒天才,在安全对齐(Alignment)面前可能是一场噩梦。
结语
多模态大模型的进化史,就是一部从“拼接”走向“原生”,从“模仿”走向“直觉”的历史。
现在的我们,正站在显式思考(Chain of Thought)的高地上,试图通过堆砌 Token 来模拟人类的理性。但也许在不远的将来,当这一波 Scaling Law 撞墙时,那个沉默思考的“Latent 模型”,也许手里有一把通往 AGI 的钥匙。