两分钟短评：大模型开始进入平台期吗？

在Anthropic 的 Claude 3 和谷歌 Gemini 赶上 GPT4 以后，就不断有人希望 Open AI 放出它的 GPT5 的大招来，但传说中的 5 迟迟不来，于是有人怀疑，scaling law 是不是失效了，大模型是不是进入了平台期。

这个怀疑有一定的道理，因为GPT路线上的 scaling law 不过是个经验“法则”，虽然说，it never fails us，so far，但谁也不敢保证它永远有效。遇到瓶颈不是不可能的。

微信中也开始流转马库斯最近的评论：“大模型开始进入收益递减的时代”。但他的论证感觉很有问题。

文章开始有个奇怪的递减结论的依据。在一个 100 scale 的性能上，达到 80 以后，绝对递升减缓不是一个宇宙真理吗？怎么就成了马库斯眼中的递减论的批评依据呢？我们对 “更大力出更大奇迹” 的 scaling 期望，主要是要补齐那些目前能力的空白和短板，最终实现 “在所有职能任务上，模型都可以达到或超过人类水平” 的 AGI 理想。因此，合理评价大模型更新换代是不是走在agi的路上，应该细致分析空白与短板，而不是用那些已经达到接近或超过人类水平的指标上。也许 gpt5 确实遇到平台期或过不去的瓶颈（我们其实不知道），但这种论证方式显得多么不靠谱。

道理上，对于已经达到或超过人类技能的指标上，应该关注不要有太大的退步（regressions）。对于一个重要的智能也有上百甚至上千种需要全面测量的模型，只要智能边界在扩大，空白被填补，低性能有增长、高性能没有大退步，就是走在正确的路上。就不能说是处于平台期。

有人看不起多模态的进步，认为那是低级的智能任务，是横向的发展，是“向下看”为应用落地，而不是向上去探顶，去加强高级智能任务的能力。这个看法，缺乏对于智能的全面深刻的理解。

多媒体方向的进步，虽然水到渠成，但其实速度很快，无论Sora的发布，还是前两天Open AI 和谷歌的全双工、实时、流式、能看能听能说、甚至能逗哏捧哏、打情骂俏的超写实助理的发布，其表现和速度实际上超出我们多数人的预期，完全不像是模型进入平台期的景象。

实时交互等于是在大模型原来的短板上大幅度增强，填补了一些空白。把这些能力排除在外，只看、只认认知智力的进展进度，是非常偏见的。

从功能对于应用的影响来看，感知多模态的加强，比起认知智能的进一步提升（例如在所有的专家资格考试中赶上人类专家），更为关键，因为模态是认知智能落地的重要接口。

从大模型本身的健康来看，多模态也是绕不过去的关，认知智能只有借助感知智能（进而结合具身智能从数字世界进入物理世界），才能算是真正落地（grounding），获得数字世界 ——或跳出数字空间获得物理世界—— 的意义。

在这一点上，LeCun 在 AGI 中特别强调感知智能是有其道理的。但LeCun过分纠结于感知和认知训练的次序了：他坚持感知智能先行，要排除语言模型的认知的“投机取巧”和对感知智能的“干扰”，淡化或无视认知智能对于感知智能的知识迁移作用，这是具体路线之争，不是特别有说服力的。

LeCun 说过： GPT 不如我家的一条狗。

这话你也不能说他错，但显然是偏激之词，带有太大的情绪。

其实，不仅LLM不及猫狗，我们人类也不及，没有猫狗的嗅觉灵敏，也没有他们躲避危险的高效。我们人类甚至在算术方面不如计算器，更甭提计算机。

so what？

对不如一条狗的LLM，我们也不能因此否认它比1000个教授和博士都更博学。LLM 可以与物理学家讨论暗物质，与语言学家谈乔姆斯基层次结构，与任何专家谈任何问题。而且所谈的并不是人们想象的那么无知和胡说，虽然里面 here and there 确实有幻觉和臆测。

切身体会是，如果你作为专家保持一种探究问题的心态和对于幻觉警惕的 alert，你会发现与它交谈比与很多中等水平的同行讨论，更有意思，或受启发。ta 看的书实在太多，而且也本性上学到了融会贯通，而不仅仅是死记答案：学到了语言，也相当程度上，学到了知识。

无视LLM这种人类智能，贬之为不如一条狗，除了发泄情绪外，只有一个价值：提醒感知智能的重要性。

不管怎样，AI 因为有了马库斯和LeCun这些“持不同政见者”，而更加丰富多彩。但我们也没必要被他们蛊惑。

两分钟短评：大模型开始进入平台期吗？

发布者

立委

发表回复