大模型训练的数据“炼金术”

立委按:在 Transformer 架构趋同的今天,大模型的性能很大程度上决定于数据工作的极致程度。大模型训练数据工作的“后厨”包括从去重算法到数据退火策略等一系列“魔鬼细节”。

在当今的 AI 圈子里,有一个共识:如果说 Infra(基础设施) 是现代化的厨房,Algorithm(算法) 是精湛的烹饪技艺,那么 Data(数据) 就是决定菜肴最终品质的食材。

随着模型架构(Architecture)的红利逐渐收窄,"Data-Centric AI"(以数据为中心的 AI)成为了主战场。数据工作有哪些决定模型智力天花板的细节呢?

1. 数据的“提纯”工艺:从网络废料到精装书

"Garbage In, Garbage Out" 是机器学习的常识。但LLM 的数据工作不仅仅是简单的清洗,而是一场精密的数据外科手术。

直观感受:什么是“好”数据?

我们常说的“清洗”,其本质是信噪比(Signal-to-Noise Ratio)的提升。让我们看一个真实的 CommonCrawl 网页数据处理前后的对比:

维度 原始数据 (Raw Web Data) 🔴 清洗后数据 (Refined Data) 🟢
内容片段 <div>广告:点击购买... <br> 楼主:不懂别乱说... 2023-05-12 热力学第二定律表明,孤立系统的熵永远不会减少...
特征 包含 HTML 标签、导航栏噪声、情绪化宣泄、无关广告。 语义连贯、逻辑完整、格式标准。
模型视角 噪声掩盖了语义,模型容易学到“点击这里”这种无意义短语。 信息密度高,模型能专注于学习知识推理。

隐形的魔鬼:去重 (Deduplication)

仅仅洗干净还不够,最大的隐患在于重复。研究表明,如果训练集中包含大量重复文本,模型就会倾向于“死记硬背” (Memorization) 而非 “泛化规律” (Generalization)

但互联网充满了“洗稿”和转载,简单的字符串匹配(Exact Match)对此无能为力。业界标准是引入 MinHash LSH (Locality Sensitive Hashing) 算法:

  • 指纹识别:它不比较整篇文章,而是提取文章特征的哈希“指纹”。

  • 模糊去重:即使两篇文章改了几个词、换了段落顺序,只要 Jaccard 相似度 超过阈值(通常设为 0.7-0.8),算法就能识别出它们是“软重复”并进行剔除。

这一步至关重要:它不仅防止模型“作弊”,还能显著提升训练效率——毕竟,没人想花几百万美元让 GPU 反复阅读同一篇新闻通稿。

2. 洁癖的代价:教科书 vs. 烟火气

微软的 Phi 系列证明了“教科书级”数据能带来极强的推理能力。但是,数据并非越干净越好。

如果我们只用完美的“温室数据”训练,模型会变成一个“高智商的书呆子”:逻辑推理极强,但面对用户充满口语、俚语甚至错别字的真实 Prompt 时,会因为 OOD (Out-Of-Distribution) 问题而表现出较差的鲁棒性。

解决方案:数据退火 (Data Annealing)

为了兼顾“聪明”和“接地气”,业界借鉴了人类的学习路径,采用 “先博学,后专精” 的课程学习策略:

  1. 前期(博学):喂食海量、多样化的网络数据,增加模型的见识和对噪声的容忍度。

  2. 后期(冷却/Cool-down):在训练的最后阶段(如最后 10% 的 Token),集中使用高质量的“教科书”数据进行冲刺,强行把模型的思维拉回到严谨、逻辑的轨道上。

3. 寻找黄金配方:为什么是 7B?

数据配比(Mix Ratio)是训练中的 secret source。代码、数学、通识文本该按什么比例混合性能效果最佳?这需要大量的 消融实验 (Ablation Studies)

这里存在一个 Scaling Laws 的非单调性陷阱:

  • 1B 模型 太弱,往往靠死记硬背,无法反映逻辑数据的价值。

  • 100B 模型 太贵,无法支持高频试错。

因此,7B - 8B 成为了业界的“黄金尺寸” (Proxy Model)。它既处于涌现能力 (Emergent Abilities) 的临界点,具备了初步逻辑能力,又是单张消费级显卡能跑得起来的上限,是验证数据配方的比较合适的实验台。

4. 评估的陷阱:是学会了,还是见过了?

当我们发现某个配方能显著提升 Benchmark(如 GSM8K)的分数时,必须警惕 基准测试泄露 (Decontamination)

虽然我们应该从训练集中剔除测试题,但 过度清洗 (Over-cleaning) 会导致模型“脑白质切除”。如果我们把所有“长得像数学应用题”的数据都为了避嫌而删掉,模型虽然没见过原题,但也失去了学习“解题范式”的机会。

结论:在“去污”和“保留多样性”之间寻找平衡,是数据科学家的走钢丝艺术。

下一站,合成数据

当人类产生的优质互联网文本快要被“吃光”时,数据工作的下一站已经很明确了:合成数据 (Synthetic Data)

利用强模型生成数据来训练弱模型(Distillation),或者通过自我博弈(Self-Play)来进化,正在成为突破天花板的新燃料。在未来,谁能构建出更高效的“数据合成工厂”,谁就掌握了通往 AGI 的钥匙。

“如果未来的模型大多由合成数据训练,AI 产生的‘近亲繁殖’会导致智能退化吗?”

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理