多模态进化论:从“看图说话”到“原生直觉”

我们经常感叹现在的 AI 能看懂复杂的梗图,甚至能像物理学家一样分析视频里的运动轨迹。剥开那些炫酷的 Demo,核心的竞争壁垒其实主要是两件事:给模型吃什么(数据形态),以及让模型怎么学(训练范式)

我们拆解一下,模型是如何进化成懂物理、懂逻辑的“原生多模态生物”的。

一、 数据形态:决定智商上限的“燃料”

模型最终能有多聪明,取决于它吃的是“快餐”还是“正餐”。

1. 图文对 (Image-Text Pairs):高效的“单词卡片”

这是多模态起步时代的产物(如 CLIP/LAION)。

  • 形态:一张图 + 一句短描述(Caption)。

  • 本质:这就像给婴儿看“识字闪卡”。正面画着猫,反面写着“猫”。

  • 局限:"Bag-of-Objects"(物体词袋)偏差。模型通过这种数据只能学会“点名”——它知道画面里有“人”、有“雨”、有“笑容”,但它无法理解这些元素之间的逻辑。
    • 经典幻觉:看着一个人在雨中大笑,模型却说他很悲伤。因为它记住了“雨=悲伤”的文本统计规律,却常常看不懂画面里的情绪反差。

2. 原生交错数据 (Native Interleaved Data):连贯的“教科书”

这是 Gemini、GPT-4V 等多模态原生模型的关键数据。

  • 形态文本 -> 图片 -> 文本 -> 视频 -> 文本

  • 本质:这是人类观察世界的真实方式——连续、有因果、有上下文。

  • 魔力:学会“预期违背”。当模型读到:“宣传册上是豪华海景房,然而当我推开门……” 随后看到一张破烂杂乱的照片。

    为了预测这张烂照片,模型必须理解 “然而” 代表逻辑反转。这就是推理能力的涌现时刻。


二、 训练范式的代际跨越:从“拼接”到“原生”

旧范式:先认字,后读书(LLaVA Style)

早期做法是“拼接”。

  1. 预热期:先喂海量“单词卡片”,把视觉编码器(眼睛)和 LLM(大脑)强行对齐,解决“语言不通”的问题。

  2. 微调期:最后才喂少量“教科书”来教指令跟随。

  • 缺点:根基不稳。模型本质上还是一个翻译官,看着图片翻译成词,再用语言逻辑去猜。

新范式:原生直觉 (Native from Day 1)

现在的趋势(如 Gemini)是大一统

  • 策略:从预训练的第一天起,就大量注入原生交错数据

  • 效果:模型不需要“翻译”。视觉 Token 和文本 Token 在它的神经网络里是平权的。它不是“学会了”物理定律,而是通过预测下一个 Token,“直觉”地掌握了物理世界。
    • 例子:预测玻璃杯掉落。模型并不是在脑子里检索“玻璃易碎”的文本知识,而是视觉 Token [玻璃] + [下落] 直接触发了 [破碎] 的预测路径。这是一种类似人类的物理直觉。


三、 终极抉择:量子坍缩与思维链

当模型有了直觉,下一步就是处理复杂的逻辑难题(Math/Coding)。这里,AI 界正面临一个哲学层面的技术分歧。

1. 显式思考 (O1 路线):忍受“量子坍缩”

目前的当红炸子鸡(以OpenAI o系列为代表)选择让模型把思考步骤一步步写出来(Token 化)。

  • 比喻:Token 化就像量子坍缩。思维原本是高维、连续、充满可能性的波函数(Hidden State),一旦被输出成 Token(文字),就瞬间坍缩成了一个确定的、离散的符号。
  • 代价信息损耗。大量模糊的、并行的直觉在变成文字的那一刻丢失了。

  • 收益可解释性。虽然笨,但我们能看懂它在哪一步想歪了,并且为每一步打分的过程奖励(Process Reward)留下了强化空间。

2. 隐式思考 (Latent Reasoning):沉默的螺旋

另一派认为,真正的天才不需要喋喋不休。

  • 愿景:让模型在黑盒子里(Latent Space)默默计算 10 秒钟,利用高维向量的并行优势,直接吐出完美答案。

  • 阻碍:“可解释性税” (The Interpretability Tax)。工程界目前不大敢买单。一个深不可测、难以调试的黑盒天才,在安全对齐(Alignment)面前可能是一场噩梦。

结语

多模态大模型的进化史,就是一部从“拼接”走向“原生”,从“模仿”走向“直觉”的历史。

现在的我们,正站在显式思考(Chain of Thought)的高地上,试图通过堆砌 Token 来模拟人类的理性。但也许在不远的将来,当这一波 Scaling Law 撞墙时,那个沉默思考的“Latent 模型”,也许手里有一把通往 AGI 的钥匙。

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理