左脚踩右脚可以飞吗，谈交替使用监督微调和强化学习的后训练

交替使用监督微调（SFT）与强化学习（RL）的策略探讨

在大模型后训练中，像deepseek R1那样交替使用监督微调（SFT）和强化学习（RL），而非单一依赖 RL 或蒸馏，背后的核心逻辑如下。

1. 交替使用 SFT 和 RL 的根本动因

(1) 训练稳定性与策略纠偏

- RL 的脆弱性
  强化学习高度依赖奖励函数设计，但在现实任务中，奖励信号往往稀疏（例如数学推理任务中仅有最终答案正确性的反馈）或含有噪声（如人类反馈存在标注误差）。如果长期仅依靠 RL，模型可能陷入局部最优，生成虽能获得高奖励却逻辑混乱的答案。
- SFT 的锚定作用
  定期引入 SFT 训练，通过高质量数据（如人工修正的思维链或模型“拒绝采样”而过滤的思维链）校正模型生成分布，可以有效防止 RL 阶段过度偏离合理路径。例如，DeepSeek-R1 在第二阶段 RL 后，通过 SFT 数据，成功修复了模型在复杂不等式推导中出现的符号错误。

(2) 数据效率与知识复用

- RL 的数据饥渴性
  生成有效的 RL 训练数据（如通过模型自身采样获得的推理轨迹）成本极高。以 Open-R1 项目为例，每天需用 512 块 H100 GPU 生成 18 万条轨迹，其中只有约 30% 能通过数学验证。【依据细节待查验】
- SFT 的快速收敛优势
  在关键能力瓶颈期（例如模型无法处理多步逻辑组合时），直接注入少量精标的 SFT 数据（如 5000 条人工编写的分步解析）能迅速突破性能瓶颈，避免 RL 长时间的探索过程。R1第一步的冷启动即是如此。

(3) 防止灾难性遗忘

- RL 的窄化效应
  当 RL 过度优化特定任务（如数学证明）时，模型可能会牺牲其他能力（例如常识推理）。有研究表明，纯 RL 训练的模型在 MATH 数据集上准确率提升了 5%，但在 TruthfulQA 上真实性得分下降了 8%。【依据细节待查验】
- SFT 的全域校准
  通过混合多领域 SFT 数据（例如同时包含数学题和事实核查问答），可以有效维持模型的通用性。DeepSeek-R1 第三阶段的混合数据微调正是基于这一设计理念。

2. 为何不持续使用 RL 或仅用蒸馏？

(1) RL 的固有局限性

- 奖励假设的不可靠性
  RL 假设奖励函数能够完全表征任务目标，但在复杂任务中，这一假设几乎难以成立。例如，代码生成任务若仅以单元测试通过率作为奖励，模型可能生成通过测试但存在安全漏洞（如缓冲区溢出）的代码。
- 策略坍塌风险
  长期 RL 训练可能导致模型策略多样性丧失。在对话任务中，模型可能反复生成高奖励但公式化、缺乏创意的回答，从而损害用户体验。

(2) 蒸馏的适用边界

- 表达能力损失
  蒸馏通过模仿教师模型的输出分布实现知识迁移，但这种方式往往会丢失隐式推理能力。例如，DeepSeek-R1-Zero 的蒸馏版本在多跳推理的 MATH 题目上性能较原模型下降了约 12%。【依据细节待查验】
- 教师依赖陷阱
  蒸馏效果受限于教师模型的整体质量。如果教师模型存在系统性错误（如物理常识错误），学生模型难以自主纠正，而 RL 能够利用环境反馈及时修正此类错误。

3. 交替循环的深层价值

(1) 螺旋式能力进化

- SFT → RL 的递进
  SFT 阶段提供了基本能力的锚点，RL 则在此基础上探索更优策略。例如，模型在 SFT 阶段学会标准数学符号的使用，随后通过 RL 发现了更简洁高效的路径。
- RL → SFT 的修正
  RL 阶段暴露出的不足（如过度简化关键步骤）可以通过新一轮 SFT 注入数据进行修正。这种交替循环类似于人类“学习-实践-反思”的认知过程。

(2) 多目标动态平衡

- 性能与安全性的博弈
  纯 RL 可能为追求高得分而牺牲安全性，例如生成偏激或不当内容。而定期使用 SFT 注入经过伦理审查的数据，可以动态约束模型输出，确保既有高性能又符合安全规范。
- 通用与专用的适配
  交替训练使得模型既能通过 SFT 保持广泛适用性（如客服对话），又能通过 RL 深耕垂直场景（如医疗诊断中的检查项推荐），从而在多种任务上均表现出色。

总结：交替策略的系统性优势

- 风险控制：通过 SFT 定期校准，规避了 RL 训练过程中可能出现的失控风险。
- 资源优化：在 RL 数据生成成本与 SFT 标注成本之间取得了良好的平衡。
- 能力完备性：既兼顾了 SFT 的模仿学习规范性，又融合了 RL 的探索学习创造性，最终实现了模型能力的稳健提升。

这种交替策略实际上是将“定向引导”与“自由探索”相结合，既避免了纯 RL 的“野蛮生长”，也超越了纯 SFT 的“照本宣科”，最终实现了模型综合能力的全面进化。同时，尽管蒸馏在某些场景下（如移动端轻量化）有其独特优势，但它并不能替代这种系统性的优化路径。

【相关】

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发表回复

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理。