大模型训练的数据“炼金术”

立委按：在 Transformer 架构趋同的今天，大模型的性能很大程度上决定于数据工作的极致程度。大模型训练数据工作的“后厨”包括从去重算法到数据退火策略等一系列“魔鬼细节”。

在当今的 AI 圈子里，有一个共识：如果说 Infra（基础设施） 是现代化的厨房，Algorithm（算法） 是精湛的烹饪技艺，那么 Data（数据） 就是决定菜肴最终品质的食材。

随着模型架构（Architecture）的红利逐渐收窄，"Data-Centric AI"（以数据为中心的 AI）成为了主战场。数据工作有哪些决定模型智力天花板的细节呢？

"Garbage In, Garbage Out" 是机器学习的常识。但LLM 的数据工作不仅仅是简单的清洗，而是一场精密的数据外科手术。

我们常说的“清洗”，其本质是信噪比（Signal-to-Noise Ratio）的提升。让我们看一个真实的 CommonCrawl 网页数据处理前后的对比：

仅仅洗干净还不够，最大的隐患在于重复。研究表明，如果训练集中包含大量重复文本，模型就会倾向于“死记硬背” (Memorization) 而非 “泛化规律” (Generalization)。

但互联网充满了“洗稿”和转载，简单的字符串匹配（Exact Match）对此无能为力。业界标准是引入 MinHash LSH (Locality Sensitive Hashing) 算法：

指纹识别：它不比较整篇文章，而是提取文章特征的哈希“指纹”。
模糊去重：即使两篇文章改了几个词、换了段落顺序，只要 Jaccard 相似度 超过阈值（通常设为 0.7-0.8），算法就能识别出它们是“软重复”并进行剔除。

这一步至关重要：它不仅防止模型“作弊”，还能显著提升训练效率——毕竟，没人想花几百万美元让 GPU 反复阅读同一篇新闻通稿。

微软的 Phi 系列证明了“教科书级”数据能带来极强的推理能力。但是，数据并非越干净越好。

如果我们只用完美的“温室数据”训练，模型会变成一个“高智商的书呆子”：逻辑推理极强，但面对用户充满口语、俚语甚至错别字的真实 Prompt 时，会因为 OOD (Out-Of-Distribution) 问题而表现出较差的鲁棒性。

为了兼顾“聪明”和“接地气”，业界借鉴了人类的学习路径，采用 “先博学，后专精” 的课程学习策略：

前期（博学）：喂食海量、多样化的网络数据，增加模型的见识和对噪声的容忍度。
后期（冷却/Cool-down）：在训练的最后阶段（如最后 10% 的 Token），集中使用高质量的“教科书”数据进行冲刺，强行把模型的思维拉回到严谨、逻辑的轨道上。

数据配比（Mix Ratio）是训练中的 secret source。代码、数学、通识文本该按什么比例混合性能效果最佳？这需要大量的 消融实验 (Ablation Studies)。

这里存在一个 Scaling Laws 的非单调性陷阱：

因此，7B - 8B 成为了业界的“黄金尺寸” (Proxy Model)。它既处于涌现能力 (Emergent Abilities) 的临界点，具备了初步逻辑能力，又是单张消费级显卡能跑得起来的上限，是验证数据配方的比较合适的实验台。

当我们发现某个配方能显著提升 Benchmark（如 GSM8K）的分数时，必须警惕 基准测试泄露 (Decontamination)。

虽然我们应该从训练集中剔除测试题，但 过度清洗 (Over-cleaning) 会导致模型“脑白质切除”。如果我们把所有“长得像数学应用题”的数据都为了避嫌而删掉，模型虽然没见过原题，但也失去了学习“解题范式”的机会。

结论：在“去污”和“保留多样性”之间寻找平衡，是数据科学家的走钢丝艺术。

当人类产生的优质互联网文本快要被“吃光”时，数据工作的下一站已经很明确了：合成数据 (Synthetic Data)。

利用强模型生成数据来训练弱模型（Distillation），或者通过自我博弈（Self-Play）来进化，正在成为突破天花板的新燃料。在未来，谁能构建出更高效的“数据合成工厂”，谁就掌握了通往 AGI 的钥匙。

“如果未来的模型大多由合成数据训练，AI 产生的‘近亲繁殖’会导致智能退化吗？”

发布者