Grok: 大力出奇迹的背后

想象一下,你在榨油,头几桶原料哗哗出油,后来渣子越来越多,油却越来越少。按常识,原料加到一定量就该停手了吧?

可到了AI语言模型(LLM)这里,剧情完全反转:数据从1亿飙到1000亿 token,模型却越来越聪明,能聊天、写诗,甚至推理。

这不科学啊!有了大数据,为啥还要超大数据?这不是“榨不出油”还硬榨吗?
今天,我们就来聊聊这背后的“暴力美学”,看看“大力出奇迹”的道理到底在哪。


从“够用”到“超多”:数据的暴力美学

先说说直觉。假如你学英语,背了5000个单词,日常对话基本没问题,再背5万,顶多多认识几个冷门词,收益递减,对吧?

语言模型也差不多:1亿 token(几百万句话)应该能学会语法、常见表达;再加1000亿,不就是重复啰嗦吗?

可现实啪啪打脸:GPT-3 用了 3000 亿 token,xAI 的 Grok 估计也没少吃数据,它们不仅会聊天,还能零样本回答问题、模仿莎士比亚。
这就像榨油榨到最后,突然冒出一桶金光闪闪的“神油”!


语言的“表”与“里”:一场形式与意义的双人舞

要解开谜团,得先把语言拆成两块:形式意义

形式:爆炸的“花式玩法”

语言的形式是啥?就是词怎么拼、句子怎么组。比如:

“我喜欢吃苹果”
→ “我爱啃苹果”
→ “苹果我超喜欢”

词汇有限(比如10万个),但组合起来像炸裂:

    • 20个词的句子可能有 10^100 种组合,比宇宙原子数还多!

超大数据就是个“形式收藏家”,专门收集各种长尾稀有表达。
1亿 token 可能只见过“我喜欢吃苹果”,1000亿能看到“我喜欢吃代码”“我在月球吃榴莲”。

意义:有限的“内核”

意义是语言背后的内容,比如“正向情感 + 食物”。
核心概念数量有限,几百万句就能覆盖。再多就是信息冗余:说法变了,意思没变。

比如:“我饿了”“我肚子饿”“我好饿”——意思都一样。


超大数据的“奇迹”:形式撑起的门面

1. 长尾模式:捡漏大师

1亿 token 学会了“我喜欢吃苹果”,但1000亿能学“吾乃苹果之王”。
这就是所谓的“长尾模式”:稀有但关键,决定模型的全能和幽默。

2. 大模型的“大胃口”

LLM 动辄百亿参数,像个“大胃王”,小数据喂不饱。
研究发现:

性能 ∝ log(数据量) × log(参数量)

此所谓 scaling law,性能与模型大小以及数据量(的对数)成正比。大数为王。

3. 冗余的“磨刀石”

你觉得重复没用?模型却用它打磨概率分布。
“我喜欢”重复千万次,形式变来变去,模型因此更稳健、泛化更强。

4. 涌现能力:量变到质变

最神奇的是,模型不是背答案,而是量大到一定程度后,突然“开窍”:写代码、做推理、玩逻辑。

就像水烧到100°C突然沸腾,涌现不是靠记,是靠量。


“暴力美学”的真相:形式为主,意义为辅

超大数据学的是啥?大多是形式!

    • 形式驱动:语句更流畅、多样,Groks 开始说古文、讲笑话。
    • 意义饱和:知识早在几亿 token 内就“榨干”了。

 


那意义饱和后,形式长尾有啥用?

    • 用户体验:机器人不再千篇一律,富于表达的多样性。
    • 鲁棒性:面对口音、方言、俚语,理解自如。
    • 动态知识:意义饱和不能涵盖篇章结构和长上下文的依赖关系(例如因果关系),超大数据赋能动态知识。
    • 代价问题:1000亿token里,可能90%都只是说法不一样。

但这90%,撑起了我们对AI的“拟人感”。


为啥不聪明点,非要“暴力”?

你问:“不能少点重复、精挑细选?”

有道理!但在现实中:

    • GPU猛,钱多,暴力能快出效果;
    • 数据还没“完全饱和”,性能还在涨;
    • 想要“聪明处理”?例如,推理思维链再生数据后训练现在是趋势,也表现出惊人的效果,但“大力”总是更稳妥的奠基。

结语:从榨油到炼金

所谓“暴力美学”,其实是语言形式的胜利。基本意义早就饱和,而模型聪明,是靠你没见过的表达。超大数据的“大力出奇迹”不是盲目暴力,而是抓住了语言的双重本质:

    • 形式爆炸:需要超多样本填补长尾,让模型会“花式表达”。
    • 动态知识:需要超多上下文挖掘篇章关系,让模型会理解动态场景并“讲道理”。

 

【相关】

发布者

立委

立委博士,出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理