左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练

交替使用监督微调(SFT)与强化学习(RL)的策略探讨

在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。


1. 交替使用 SFT 和 RL 的根本动因

(1) 训练稳定性与策略纠偏

    • RL 的脆弱性
      强化学习高度依赖奖励函数设计,但在现实任务中,奖励信号往往稀疏(例如数学推理任务中仅有最终答案正确性的反馈)或含有噪声(如人类反馈存在标注误差)。如果长期仅依靠 RL,模型可能陷入局部最优,生成虽能获得高奖励却逻辑混乱的答案。
    • SFT 的锚定作用
      定期引入 SFT 训练,通过高质量数据(如人工修正的思维链或模型“拒绝采样”而过滤的思维链)校正模型生成分布,可以有效防止 RL 阶段过度偏离合理路径。例如,DeepSeek-R1 在第二阶段 RL 后,通过 SFT 数据,成功修复了模型在复杂不等式推导中出现的符号错误。

(2) 数据效率与知识复用

    • RL 的数据饥渴性
      生成有效的 RL 训练数据(如通过模型自身采样获得的推理轨迹)成本极高。以 Open-R1 项目为例,每天需用 512 块 H100 GPU 生成 18 万条轨迹,其中只有约 30% 能通过数学验证。【依据细节待查验】
    • SFT 的快速收敛优势
      在关键能力瓶颈期(例如模型无法处理多步逻辑组合时),直接注入少量精标的 SFT 数据(如 5000 条人工编写的分步解析)能迅速突破性能瓶颈,避免 RL 长时间的探索过程。R1第一步的冷启动即是如此。

(3) 防止灾难性遗忘

    • RL 的窄化效应
      当 RL 过度优化特定任务(如数学证明)时,模型可能会牺牲其他能力(例如常识推理)。有研究表明,纯 RL 训练的模型在 MATH 数据集上准确率提升了 5%,但在 TruthfulQA 上真实性得分下降了 8%。【依据细节待查验】
    • SFT 的全域校准
      通过混合多领域 SFT 数据(例如同时包含数学题和事实核查问答),可以有效维持模型的通用性。DeepSeek-R1 第三阶段的混合数据微调正是基于这一设计理念。

2. 为何不持续使用 RL 或仅用蒸馏?

(1) RL 的固有局限性

    • 奖励假设的不可靠性
      RL 假设奖励函数能够完全表征任务目标,但在复杂任务中,这一假设几乎难以成立。例如,代码生成任务若仅以单元测试通过率作为奖励,模型可能生成通过测试但存在安全漏洞(如缓冲区溢出)的代码。
    • 策略坍塌风险
      长期 RL 训练可能导致模型策略多样性丧失。在对话任务中,模型可能反复生成高奖励但公式化、缺乏创意的回答,从而损害用户体验。

(2) 蒸馏的适用边界

    • 表达能力损失
      蒸馏通过模仿教师模型的输出分布实现知识迁移,但这种方式往往会丢失隐式推理能力。例如,DeepSeek-R1-Zero 的蒸馏版本在多跳推理的 MATH 题目上性能较原模型下降了约 12%。【依据细节待查验】
    • 教师依赖陷阱
      蒸馏效果受限于教师模型的整体质量。如果教师模型存在系统性错误(如物理常识错误),学生模型难以自主纠正,而 RL 能够利用环境反馈及时修正此类错误。

3. 交替循环的深层价值

(1) 螺旋式能力进化

    • SFT → RL 的递进
      SFT 阶段提供了基本能力的锚点,RL 则在此基础上探索更优策略。例如,模型在 SFT 阶段学会标准数学符号的使用,随后通过 RL 发现了更简洁高效的路径。
    • RL → SFT 的修正
      RL 阶段暴露出的不足(如过度简化关键步骤)可以通过新一轮 SFT 注入数据进行修正。这种交替循环类似于人类“学习-实践-反思”的认知过程。

(2) 多目标动态平衡

    • 性能与安全性的博弈
      纯 RL 可能为追求高得分而牺牲安全性,例如生成偏激或不当内容。而定期使用 SFT 注入经过伦理审查的数据,可以动态约束模型输出,确保既有高性能又符合安全规范。
    • 通用与专用的适配
      交替训练使得模型既能通过 SFT 保持广泛适用性(如客服对话),又能通过 RL 深耕垂直场景(如医疗诊断中的检查项推荐),从而在多种任务上均表现出色。

总结:交替策略的系统性优势

    • 风险控制:通过 SFT 定期校准,规避了 RL 训练过程中可能出现的失控风险。
    • 资源优化:在 RL 数据生成成本与 SFT 标注成本之间取得了良好的平衡。
    • 能力完备性:既兼顾了 SFT 的模仿学习规范性,又融合了 RL 的探索学习创造性,最终实现了模型能力的稳健提升。

这种交替策略实际上是将“定向引导”与“自由探索”相结合,既避免了纯 RL 的“野蛮生长”,也超越了纯 SFT 的“照本宣科”,最终实现了模型综合能力的全面进化。同时,尽管蒸馏在某些场景下(如移动端轻量化)有其独特优势,但它并不能替代这种系统性的优化路径。

 

【相关】


发布者

立委

立委博士,出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理