Grok:大模型为什么要超大数据?(4o配图)

各位同学,想象一下这个场景:你在兴致勃勃地榨油,刚开始,新鲜原料下去,哗啦啦全是金黄的油,心里美滋滋。可榨着榨着,出来的渣子越来越多,油却越来越少。按咱们朴素的常识,这时候是不是该见好就收,别浪费原料了?

然而,到了人工智能语言模型(LLM)这片神奇的土地,剧情发生了一百八十度大转弯!数据量从1亿token(可以理解为单词或字符块)一路狂飙到1000亿,甚至更多,按理说早该“榨不出油”了,可模型反而越来越聪明,不仅能跟你天南海北地聊天,还能即兴写诗、编故事,甚至进行复杂的逻辑推理。这……不科学啊!有了“够用”的大数据,为啥还要追求“多到离谱”的超大数据?这不是跟“榨油”的道理反着来吗?

今天,咱们就来扒一扒这背后的“暴力美学”,看看AI界的“大力出奇迹”到底藏着什么玄机。

[一张对比图。左边是一个小油榨机,旁边堆着少量原料,出油口滴着几滴油。右边是一个巨大的、充满未来感的“数据榨取工厂”,无数数据流涌入,出油口喷涌出象征“智慧”或“能力”的光芒/液体。]


从“够用”到“超多”:数据的暴力美学

咱们先凭直觉感受一下。假如你正在苦学英语,背了5000个核心单词,应付日常对话基本就八九不离十了。这时候再让你背5万个单词,可能也就是多认识几个莎士比亚戏剧里的生僻词,或者医学、法律的专业术语,对于日常交流能力的提升来说,收益明显递减,对吧?

按理说,语言模型也该是这么个道理:给它1亿token的数据(大概相当于几百万句话),足够它学会基本的语法规则、常用短语和表达方式了。再喂给它1000亿token,那不就是大量的重复和啰嗦吗?就像让你把“你好”看一万遍一样无聊。

可现实啪啪打脸:像GPT-3这样的模型,据说用了高达3000亿token的数据进行训练;马斯克旗下xAI的Grok,虽然具体数字保密,但可以想象也是个“数据饕餮”。结果呢?它们不仅能对答如流,还能在没见过具体问题的情况下(零样本学习)给出答案,甚至模仿莎士比亚的文风写十四行诗。这简直就像榨油榨到最后,眼看全是渣子了,突然“嘭”地一声,冒出了一桶闪着金光的“智慧神油”!

这个现象在AI圈内有个响当当的绰号,叫做“暴力美学”(Brute Force Aesthetics)——简单粗暴地堆砌数据、堆砌模型参数、堆砌计算能力,方法看似“笨拙”,效果却出奇地惊艳。同学们,你们是不是也跟我一样好奇:这些数据明明已经冗余得像“榨干的油渣”了,为什么还能让模型变得更强大呢?


语言的“表”与“里”:一场形式与意义的双人舞

要想解开这个谜团,咱们得先学会像庖丁解牛一样,把“语言”这头复杂的牛拆解成两个关键部分:形式(Form)和意义(Meaning)。

形式:爆炸的“花式玩法”

语言的形式,说白了就是词语是怎么拼写的、句子是怎么构造的。比如,“我喜欢吃苹果”这句话,它可以有无数种“花式变体”:“我超爱啃苹果”、“苹果是我的心头好”、“苹果这种水果深得我心”、“吾甚爱苹菓”……

虽然我们日常使用的词汇量可能是有限的(比如现代汉语常用词也就几万个),但这些有限的词汇组合起来,产生的可能性简直是天文数字! 想象一下:假设我们有10万个词汇,要组成一个包含20个词的句子,理论上有多少种组合?答案是 10万^20 ≈ 10^100!这个数字比已知宇宙中的原子总数(大约10^80)还要多得多!

在海量的数据里,确实,大部分句子都是常见的、符合常规模式的(比如各种围绕“我喜欢...”的表达)。但与此同时,还存在着无数稀奇古怪、不按常理出牌的长尾模式(Long-tail Patterns),比如“我在月球上吃着榴莲唱着歌”、“用代码写一首关于猫咪打字的诗”。

超大数据(比如1000亿token级别)就像一个强迫症晚期的“形式收藏家”,它的一个重要任务就是尽可能多地收集和学习这些五花八门的、甚至是罕见的语言表达形式。只有1亿token的数据集,模型可能只见过规规矩矩的“我喜欢吃苹果”。但有了1000亿token,它就有机会见到“我喜欢啃苹果核”、“我喜欢吃代码bug”、“哀家独爱此红果”等等千奇百怪的说法,见识大大增长。

意义:有限的“内核”

与形式的无限可能性相对,语言的基本意义(包括本体知识,ontology),也就是语言所承载的内容、知识和逻辑关系,其核心概念及其关系的数量相对是有限的。比如,“我喜欢吃苹果”这句话表达的核心意义无非是“(主体:我)+(情感:正向/喜爱)+(动作:吃)+(对象:苹果)”。

世界上的核心概念(如时间、空间、情感、物体类别等)虽然丰富,但终究是有限的。可能只需要几百万句、甚至几千万句话(对应相对“较小”的数据量,比如1亿token),模型就已经能覆盖和学习到绝大多数常见的知识点和逻辑关系了。

再往数据集中加入更多句子,比如“我饿了”、“我肚子饿得咕咕叫”、“我好饿呀,想吃东西”,它们的形式各不相同,但表达的核心意义(生理状态:饥饿)却是高度重复的。这种情况就叫做信息冗余(Information Redundancy)。从“基本意义”的角度看,这就像是反复榨已经出油不多的油渣,新榨出来的“油水”(意义)并没有本质增加,只是换了个“包装”(形式)而已。

区别在哪?

    • 形式的长尾(Form's Long Tail):超大规模的数据集主要在努力填补“组合爆炸”留下的巨大空间,学习各种各样、甚至是非常罕见的表达方式。它的增长潜力巨大。
    • 意义的饱和(Meaning Saturation):知识、常识和基本逻辑关系,在达到一定规模的数据量(比如亿级token)后,就已经被模型“榨”得差不多了,后续增加的数据在“意义”层面带来的新东西越来越少,重复性很高。
      • 冗余的错觉:基本意义是高度重复的,但超大数据的“油水”藏在动态知识里,尤其是篇章结构和远距离依赖关系。
      • 规模的意义:1亿token榨干静态知识,1000亿token覆盖很多长尾形式并挖掘动态知识,远没到没用的时候。形式长尾和动态意义的把握让模型理解复杂场景、善于篇章推理和生成长文。

超大数据的“奇迹”:形式如何撑起门面?

好了,关键问题来了:既然“意义”早就饱和了,我们为什么还要费那么大劲去搞超大数据呢?难道就是为了让模型学会说“茴香豆的‘茴’有四种写法”吗?答案就藏在形式和意义这对“舞伴”的微妙互动中。

1. 长尾模式:语言世界的“捡漏大师”

1亿token的数据可能教会了模型说标准的“我喜欢吃苹果”。但1000亿token的数据,却有机会让模型“捡漏”学到诸如“我在火星上种的苹果熟了,味道好极了”、“吾乃沉迷苹果无法自拔之果粉是也”这类极其罕见但合乎语法逻辑的表达。

这些长尾模式虽然单个出现的频率极低,但汇集起来,却是模型展现其“无所不知”、“无所不能”的关键。用户可不希望AI只会说标准普通话、回答标准答案,他们希望AI能听懂方言俚语、能接住网络热梗、能应对刁钻古怪的问题。超大数据就像一个超级“万能翻译机”和“语料库大全”,让Grok这样的模型能用一本正经的古文回复你“余甚喜食苹果也”,或者用贱兮兮的语气调侃你。

类比一下:普通大数据像是在开采容易找到的浅层油田,产量大但种类单一;而超大数据则像是在深海、在极地钻探,虽然每次“捡漏”到的油(罕见模式)不多,但这些油往往非常珍贵,能满足特殊需求。

2. 大模型的“大胃口”需要“大餐”

现在的LLM动辄拥有数百亿甚至上万亿的参数(Parameters),这些参数就像是模型大脑中的神经元连接。参数量如此巨大的模型,简直就是个“超级大胃王”。只给它1亿token的数据,就好比给一个壮汉只吃一碗米饭,根本吃不饱,模型的巨大潜力无法被充分激发,这在机器学习里叫做欠拟合(Underfitting)。

有研究揭示了著名的“缩放定律”(Scaling Laws),大致表明:

# 模型性能约等于...
Performance ≈ C * log(Dataset Size) * log(Model Size)
# (C是常数, log表示对数关系)

简单来说,模型的参数量(Model Size)越大,就需要越多的数据(Dataset Size)来“喂饱”它,才能让性能(Performance)持续提升。一个拥有1000亿参数的模型,可能真的需要千亿甚至万亿级别的token数据,才能让它的每一个参数都得到充分的训练和调整,发挥出全部实力。

类比一下:小鸟胃吃一小碗饭就饱了,相扑选手的胃口,可能得连吃十大碗饭才能满足基本需求。参数量巨大的LLM就是那个相扑选手。

3. 冗余数据:看似无用,实则“磨刀石”

你可能会觉得,那些意义重复的数据(信息冗余)不就是“渣子”吗?留着干嘛?但对于模型来说,这些看似冗余的数据,其实扮演了“磨刀石”的角色。

同一个意思,比如“我喜欢”,在数据中可能以各种细微差别的形式重复出现成千上万次:“我超爱”、“我贼喜欢”、“我对其情有独钟”、“我表示好感”……模型通过反复接触这些形式各异但意义相近的样本,能够更精确地学习到词语和概念之间的概率分布,让它的预测(比如下一个词应该是什么)变得更稳定、更丝滑、更符合自然语言的习惯

冗余并不是完全没用,它在帮助模型打磨内部表示,让生成的语言更流畅自然。

类比一下:书法家反复练习同一个字“永”,虽然字本身的意义没变,但每一次练习都在打磨笔锋、稳定结构,最终让技艺炉火纯青。冗余数据就是模型在反复“练字”。

4. 涌现能力:量变到质变的“魔法时刻”

最令人着迷的一点是,当数据量、模型参数量大到一定程度后,模型会展现出所谓的“涌现能力”(Emergent Abilities)。这意味着模型突然学会了某些在小规模模型或小数据量下完全不具备的、意想不到的新技能,比如进行数学推理、编写代码、理解比喻和幽默等。

这些能力似乎并不是因为数据中包含了所有问题的直接答案,而是因为模型在处理了天文数字般的语言模式后,从量变积累到了质变,仿佛“顿悟”了一般,开始从简单的“模式记忆”跃升到了某种程度的“抽象理解”。这就像水温从99℃升到100℃,看似只差1度,却发生了从液态到气态的相变。暴力堆数据,硬生生堆出了“智能的火花”。

类比一下:你小时候玩积木,堆几十块可能只是个歪歪扭扭的塔,但当你拥有足够多的积木(超大数据),并且耐心堆到成千上万块(大模型)时,你可能突然发现自己搭出了一座结构精巧、功能完备的城堡。


“暴力美学”的真相:形式为主,意义为辅?

那么,超大数据训练出来的LLM,到底主要学到的是什么?真的是海量的形式长尾吗?目前的看法倾向于是的,但又不完全是。

    • 形式驱动显著:千亿级别的token极大地丰富了模型的形式表达能力。这使得模型生成的文本更加流畅、自然、多样化,更像一个真正的人在说话,而不是一个只会套模板的机器人。Grok能用幽默风趣或古雅文言来回答问题,很大程度上就得益于其接触过的海量、多样的语言形式。
    • 意义增长趋缓:如前所述,关于世界的基本知识、常识和逻辑推理能力,在数据量达到亿级token时可能就已经建立了基础框架。超大数据在“基本意义”层面带来的边际效益递减,它可能并没有教给模型全新的、颠覆性的“知识”,更多的是把已有的知识用100种、1000种不同的方式重新包装和表达了一遍。

一些研究证据似乎也支持这一点:有实验发现,随着训练数据量的增加(比如从几十亿token增加到几百亿甚至上千亿),模型在需要精确知识的问答任务(如百科问答)上的性能提升速度会逐渐放缓;但与此同时,衡量长上下文指令遵循、生成文本多样性、流畅度和风格模仿能力的指标却可能持续显著增长。这似乎印证了,“油水”(基本意义)榨得差不多了,超大数据更多是在给模型缝制一件越来越华丽、越来越合身的“外衣”(形式),可以应对任意复杂场景。


那意义饱和后,形式长尾还有啥用?

听到这里,你可能会嘀咕:“既然核心的知识和逻辑都学得差不多了,那花那么大代价去追求形式上的花样翻新,性价比高吗?有必要吗?” 这个问题问得很好!确实有利有弊:

    • 用户体验至上:形式的长尾和多样性直接关系到用户体验。没有人喜欢跟一个说话颠三倒四、只会用有限几种句式表达的AI助手交流。自然、多变、甚至带点个性的语言风格,是LLM能够被广泛接受和喜爱的关键因素。
    • 提升鲁棒性和长线条:接触过足够多的罕见表达和非标准用法,能让模型在面对真实世界中充满噪声、方言、俚语、甚至是错误输入的“脏数据”或超长上下文时,表现得更加鲁棒(Robust),超强理解,不容易“翻车”。
    • 高昂的代价:硬堆1000亿token的数据,其中可能高达90%甚至更多在“意义”层面是冗余的,主要贡献在于形式的多样性。这意味着巨大的计算成本、存储成本和时间成本。为了那“10%”可能的新形式或微弱的意义提升,付出“90%”的冗余代价,性价比确实是个值得考量的问题。这其实是把特定知识蒸馏给小模型做应用的理由之一,

再打个比方:意义就像是人体的骨架,可能1亿token的数据就已经把骨架搭得七七八八了;而形式则是覆盖在骨架外的肌肉、皮肤和衣服。超大数据(1000亿token)让这身“衣服”变得极其华丽、款式万千、能驾驭各种风格,但里面的“骨架”可能并没有发生根本性的改变。


为啥不更“聪明”一点,非要这么“暴力”?

“大力出奇迹”听起来很燃,但你可能还是会忍不住吐槽:这种做法也太“壕”无人性、太浪费资源了吧?难道就没有更“聪明”、更高效的方法吗?

你说得对,这种“暴力美学”确实有其局限性和潜在的浪费。但之所以目前它还是主流,主要有几个原因:

    1. 缩放定律的魔力仍在:经验性研究(Scaling Laws)表明,至少在目前可达到的数据量级(千亿甚至万亿token)和模型规模下,继续增加数据量,模型的性能仍然在持续提升,虽然可能提升速度放缓,但饱和点似乎还未真正到来(但最近发现,高品质数据几乎耗尽已经带来了预训练性能的平台效应,由此催生了强化学习后训练推理模型的崛起)。只要“大力”还能继续“出奇迹”,在追求更高性能的竞赛中,大家就倾向于继续“大力”。
    2. 工程上的可行性与效率:相比于设计复杂的算法去精确提炼“意义”、去除“冗余形式”,直接“暴力”地把能收集到的所有数据(当然要做数据清洗和质量管控)都扔给模型去学,在现有强大的GPU算力支持下,反而是工程上更容易实现、也更快看到效果的路径。先“暴力”,再“精细”。
    3. 对“涌现”的期待与未知:我们对于LLM如何学习、以及“涌现能力”产生的具体机制还不够完全理解。暴力堆数据就像是在探索一片未知的领域,我们不知道下一个“奇迹”会在哪个数据量级、哪个模型规模下出现。在没有找到更精准的“炼金术”之前,“暴力”堆料可能是触发未知的“魔法”的最直接方式。
    4. 未来的反思与探索:当然,学术界和工业界也一直在积极探索更“聪明”的方法,比如研究如何进行高效的数据去重、如何蒸馏知识、如何设计更擅长学习核心逻辑的模型架构,例如最近兴起的推理强化学习等。未来,我们很可能会看到更加高效、更加“智慧”的数据利用方式。但在现阶段,“暴力美学”凭借其简单直接和已被验证的有效性,还是基本王道。

结语:从“榨油”到“炼金”

所以,回到我们最初的“榨油”比喻。超大数据的“暴力美学”并非盲目乱来,它其实是巧妙地(或者说,被迫地)利用了语言本身“形式无限、意义有限”的特性。当“意义之油”逐渐榨干时,超大数据继续投入,主要是在榨取那无穷无尽、花样繁多的“形式之油”。正是这些看似冗余、实则提供了多样性和稳定性的“形式”,结合巨大的模型规模,共同催生了我们今天看到的LLM“巨兽”的惊人能力,甚至触发了难以预料的“涌现奇迹”。

所以,同学们,下次当你和ChatGPT、Grok或其他大型语言模型愉快地玩耍,惊叹于它们的对答如流、妙语连珠时,不妨在心里默默感叹一句:这家伙,可是被几千亿甚至上万亿token的“数据大餐”硬生生喂出来的“语言巨兽”啊!它的“聪明”,很大一部分是用“形式”的砖瓦,在“意义”的地基上,通过“暴力”施工堆砌起来的!

【相关】

发布者

立委

立委博士,出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理