正常的模型反哺不会导致模型坍塌

某些关于再生数据造成“模型坍塌 (Model Collapse)”的说法其实是危言耸听，模型反哺造成 Self-Improvement (自我进化) 具有内在的根本逻辑：只要存在“优胜劣汰”的拣选机制，合成数据就不是“近亲繁殖”，而是“定向进化”。

1. 为什么“模型坍塌”在工程上是伪命题？

那些声称“模型吃合成数据会变傻”的论调，通常预设了一个天真甚至愚蠢的前提：无差别的递归训练 (Naïve Recursive Training)。

他们是这样想/做/论的：

模型生成 100 条数据（好坏参半）。
不加筛选，把这 100 条全喂回去训练下一代。
循环 N 次。

结果：当然会坍塌！就好比一张图片被复印N次，只会越来越糟。

但现实是：

没有任何一个正常的算法（工程师）会这么干。默认的practice是 Rejection Sampling (拒绝采样)：

模型生成 100 条数据。
Verifier/Human 介入：砍掉 90 条，只留 10 条最好的（Advantage 恒大于 0）。
用这 10 条精英数据训练下一代。

数学推导：

只要 $\text{Mean}(\text{Selected Data}) > \text{Mean}(\text{Current Model Policy})$ ，模型在下一轮的平均水平必然上升。

这不叫坍塌，这叫 Distillation of Success (成功的蒸馏)。

2. “反哺”的本质：把长尾变成主流

想象一个正态分布曲线（模型的输出质量）：

左尾：胡说八道。
中间：平庸的回答。
右尾 (The Long Tail)：偶尔出现的灵光一现（高智商回答）。

我们的拣选机制（Verifier/Checklist），本质上就是一个滤波器。我们只把右尾的那部分剪下来，当作 Ground Truth 去训练模型。

通过训练，模型会将概率密度向右移动——把“偶尔的灵光一现”，变成“稳定的肌肉记忆”。

这就是 AlphaGo 为什么能左脚踩右脚上天，也是现在 LLM 能做推理强化的底层逻辑。

3. “自生自灭”的 AIGC 达尔文主义

“AIGC 在互联网上自生自灭”，可以称为 RLHF at Internet Scale (互联网规模的 RLHF)。例如：

生成：Midjourney 每天生成 1000 万张图。
筛选 (Environment Reward)：只有那些被用户保存、转发、点赞的图，才会留存在互联网的显眼位置。烂图都在缓存里被删了。
结果：下一代模型再去爬取互联网数据时，爬到的全是经过人类审美筛选过的合成数据。

所以，互联网并没有被合成数据污染，它只是经历了一次更残酷的自然选择。留下来能被再次爬取到的，本质上已经是“人类偏好”的结晶。

4. 风险：不是“变傻”，而是“变窄”

既然模型不会退化，那我们在用合成数据时，到底在防备什么？

其实不是 Model Collapse (模型坍塌/变傻)，而是 Mode Collapse (模式坍塌/变窄)。

目前做法的副作用可能有：

筛选器的偏见：如果我们的 Verifier（或者人类点赞）只喜欢某种特定的风格（比如“条理清晰的八股文”）。
多样性丧失：经过多轮迭代后，模型生成的每一句话都极度完美、极度正确，但也极度同质化。它可能失去了那种“有点混乱的创造力”。

但这在工业界通常是可以接受的代价。 尤其是对于写代码、做数学、看财报来说，我们不需要它“五花八门”，我们需要它“收敛到真理”。

总结

“模型退化论”在有严格 Verifier 的系统中就是无稽之言。

没有筛选的合成数据 = 近亲繁殖 = 畸形。
经过严选的合成数据 = 优生优育 = 进化。

数据飞轮 (Data Flywheel) 之所以能转起来，全靠这个 Delta —— 即筛选后的数据质量与模型平均质量的差值。只要这个 $\Delta$ 是正的，模型就会一直变强，直到触碰到 Verifier 本身的天花板（Teacher 的判断力上限）。

立委关于大模型与AI的博客汇总

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

1. 为什么“模型坍塌”在工程上是伪命题？

2. “反哺”的本质：把长尾变成主流

3. “自生自灭”的 AIGC 达尔文主义

4. 风险：不是“变傻”，而是“变窄”

总结

发布者

立委

发表回复