立委按:在 Transformer 架构趋同的今天,大模型的性能很大程度上决定于数据工作的极致程度。大模型训练数据工作的“后厨”包括从去重算法到数据退火策略等一系列“魔鬼细节”。
在当今的 AI 圈子里,有一个共识:如果说 Infra(基础设施) 是现代化的厨房,Algorithm(算法) 是精湛的烹饪技艺,那么 Data(数据) 就是决定菜肴最终品质的食材。
随着模型架构(Architecture)的红利逐渐收窄,"Data-Centric AI"(以数据为中心的 AI)成为了主战场。数据工作有哪些决定模型智力天花板的细节呢?
1. 数据的“提纯”工艺:从网络废料到精装书
"Garbage In, Garbage Out" 是机器学习的常识。但LLM 的数据工作不仅仅是简单的清洗,而是一场精密的数据外科手术。
直观感受:什么是“好”数据?
我们常说的“清洗”,其本质是信噪比(Signal-to-Noise Ratio)的提升。让我们看一个真实的 CommonCrawl 网页数据处理前后的对比:
| 维度 | 原始数据 (Raw Web Data) 🔴 | 清洗后数据 (Refined Data) 🟢 |
| 内容片段 | <div>广告:点击购买... <br> 楼主:不懂别乱说... 2023-05-12 |
热力学第二定律表明,孤立系统的熵永远不会减少... |
| 特征 | 包含 HTML 标签、导航栏噪声、情绪化宣泄、无关广告。 | 语义连贯、逻辑完整、格式标准。 |
| 模型视角 | 噪声掩盖了语义,模型容易学到“点击这里”这种无意义短语。 | 信息密度高,模型能专注于学习知识推理。 |
隐形的魔鬼:去重 (Deduplication)
仅仅洗干净还不够,最大的隐患在于重复。研究表明,如果训练集中包含大量重复文本,模型就会倾向于“死记硬背” (Memorization) 而非 “泛化规律” (Generalization)。
但互联网充满了“洗稿”和转载,简单的字符串匹配(Exact Match)对此无能为力。业界标准是引入 MinHash LSH (Locality Sensitive Hashing) 算法:
-
指纹识别:它不比较整篇文章,而是提取文章特征的哈希“指纹”。
-
模糊去重:即使两篇文章改了几个词、换了段落顺序,只要 Jaccard 相似度 超过阈值(通常设为 0.7-0.8),算法就能识别出它们是“软重复”并进行剔除。
这一步至关重要:它不仅防止模型“作弊”,还能显著提升训练效率——毕竟,没人想花几百万美元让 GPU 反复阅读同一篇新闻通稿。
2. 洁癖的代价:教科书 vs. 烟火气
微软的 Phi 系列证明了“教科书级”数据能带来极强的推理能力。但是,数据并非越干净越好。
如果我们只用完美的“温室数据”训练,模型会变成一个“高智商的书呆子”:逻辑推理极强,但面对用户充满口语、俚语甚至错别字的真实 Prompt 时,会因为 OOD (Out-Of-Distribution) 问题而表现出较差的鲁棒性。
解决方案:数据退火 (Data Annealing)
为了兼顾“聪明”和“接地气”,业界借鉴了人类的学习路径,采用 “先博学,后专精” 的课程学习策略:
-
前期(博学):喂食海量、多样化的网络数据,增加模型的见识和对噪声的容忍度。
-
后期(冷却/Cool-down):在训练的最后阶段(如最后 10% 的 Token),集中使用高质量的“教科书”数据进行冲刺,强行把模型的思维拉回到严谨、逻辑的轨道上。
3. 寻找黄金配方:为什么是 7B?
数据配比(Mix Ratio)是训练中的 secret source。代码、数学、通识文本该按什么比例混合性能效果最佳?这需要大量的 消融实验 (Ablation Studies)。
这里存在一个 Scaling Laws 的非单调性陷阱:
-
1B 模型 太弱,往往靠死记硬背,无法反映逻辑数据的价值。
-
100B 模型 太贵,无法支持高频试错。
因此,7B - 8B 成为了业界的“黄金尺寸” (Proxy Model)。它既处于涌现能力 (Emergent Abilities) 的临界点,具备了初步逻辑能力,又是单张消费级显卡能跑得起来的上限,是验证数据配方的比较合适的实验台。
4. 评估的陷阱:是学会了,还是见过了?
当我们发现某个配方能显著提升 Benchmark(如 GSM8K)的分数时,必须警惕 基准测试泄露 (Decontamination)。
虽然我们应该从训练集中剔除测试题,但 过度清洗 (Over-cleaning) 会导致模型“脑白质切除”。如果我们把所有“长得像数学应用题”的数据都为了避嫌而删掉,模型虽然没见过原题,但也失去了学习“解题范式”的机会。
结论:在“去污”和“保留多样性”之间寻找平衡,是数据科学家的走钢丝艺术。
下一站,合成数据
当人类产生的优质互联网文本快要被“吃光”时,数据工作的下一站已经很明确了:合成数据 (Synthetic Data)。
利用强模型生成数据来训练弱模型(Distillation),或者通过自我博弈(Self-Play)来进化,正在成为突破天花板的新燃料。在未来,谁能构建出更高效的“数据合成工厂”,谁就掌握了通往 AGI 的钥匙。
“如果未来的模型大多由合成数据训练,AI 产生的‘近亲繁殖’会导致智能退化吗?”