交替使用监督微调(SFT)与强化学习(RL)的策略探讨
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
1. 交替使用 SFT 和 RL 的根本动因
(1) 训练稳定性与策略纠偏
-
- RL 的脆弱性
强化学习高度依赖奖励函数设计,但在现实任务中,奖励信号往往稀疏(例如数学推理任务中仅有最终答案正确性的反馈)或含有噪声(如人类反馈存在标注误差)。如果长期仅依靠 RL,模型可能陷入局部最优,生成虽能获得高奖励却逻辑混乱的答案。 - SFT 的锚定作用
定期引入 SFT 训练,通过高质量数据(如人工修正的思维链或模型“拒绝采样”而过滤的思维链)校正模型生成分布,可以有效防止 RL 阶段过度偏离合理路径。例如,DeepSeek-R1 在第二阶段 RL 后,通过 SFT 数据,成功修复了模型在复杂不等式推导中出现的符号错误。
- RL 的脆弱性
(2) 数据效率与知识复用
-
- RL 的数据饥渴性
生成有效的 RL 训练数据(如通过模型自身采样获得的推理轨迹)成本极高。以 Open-R1 项目为例,每天需用 512 块 H100 GPU 生成 18 万条轨迹,其中只有约 30% 能通过数学验证。【依据细节待查验】 - SFT 的快速收敛优势
在关键能力瓶颈期(例如模型无法处理多步逻辑组合时),直接注入少量精标的 SFT 数据(如 5000 条人工编写的分步解析)能迅速突破性能瓶颈,避免 RL 长时间的探索过程。R1第一步的冷启动即是如此。
- RL 的数据饥渴性
(3) 防止灾难性遗忘
-
- RL 的窄化效应
当 RL 过度优化特定任务(如数学证明)时,模型可能会牺牲其他能力(例如常识推理)。有研究表明,纯 RL 训练的模型在 MATH 数据集上准确率提升了 5%,但在 TruthfulQA 上真实性得分下降了 8%。【依据细节待查验】 - SFT 的全域校准
通过混合多领域 SFT 数据(例如同时包含数学题和事实核查问答),可以有效维持模型的通用性。DeepSeek-R1 第三阶段的混合数据微调正是基于这一设计理念。
- RL 的窄化效应
2. 为何不持续使用 RL 或仅用蒸馏?
(1) RL 的固有局限性
-
- 奖励假设的不可靠性
RL 假设奖励函数能够完全表征任务目标,但在复杂任务中,这一假设几乎难以成立。例如,代码生成任务若仅以单元测试通过率作为奖励,模型可能生成通过测试但存在安全漏洞(如缓冲区溢出)的代码。 - 策略坍塌风险
长期 RL 训练可能导致模型策略多样性丧失。在对话任务中,模型可能反复生成高奖励但公式化、缺乏创意的回答,从而损害用户体验。
- 奖励假设的不可靠性
(2) 蒸馏的适用边界
-
- 表达能力损失
蒸馏通过模仿教师模型的输出分布实现知识迁移,但这种方式往往会丢失隐式推理能力。例如,DeepSeek-R1-Zero 的蒸馏版本在多跳推理的 MATH 题目上性能较原模型下降了约 12%。【依据细节待查验】 - 教师依赖陷阱
蒸馏效果受限于教师模型的整体质量。如果教师模型存在系统性错误(如物理常识错误),学生模型难以自主纠正,而 RL 能够利用环境反馈及时修正此类错误。
- 表达能力损失
3. 交替循环的深层价值
(1) 螺旋式能力进化
-
- SFT → RL 的递进
SFT 阶段提供了基本能力的锚点,RL 则在此基础上探索更优策略。例如,模型在 SFT 阶段学会标准数学符号的使用,随后通过 RL 发现了更简洁高效的路径。 - RL → SFT 的修正
RL 阶段暴露出的不足(如过度简化关键步骤)可以通过新一轮 SFT 注入数据进行修正。这种交替循环类似于人类“学习-实践-反思”的认知过程。
- SFT → RL 的递进
(2) 多目标动态平衡
-
- 性能与安全性的博弈
纯 RL 可能为追求高得分而牺牲安全性,例如生成偏激或不当内容。而定期使用 SFT 注入经过伦理审查的数据,可以动态约束模型输出,确保既有高性能又符合安全规范。 - 通用与专用的适配
交替训练使得模型既能通过 SFT 保持广泛适用性(如客服对话),又能通过 RL 深耕垂直场景(如医疗诊断中的检查项推荐),从而在多种任务上均表现出色。
- 性能与安全性的博弈
总结:交替策略的系统性优势
-
- 风险控制:通过 SFT 定期校准,规避了 RL 训练过程中可能出现的失控风险。
- 资源优化:在 RL 数据生成成本与 SFT 标注成本之间取得了良好的平衡。
- 能力完备性:既兼顾了 SFT 的模仿学习规范性,又融合了 RL 的探索学习创造性,最终实现了模型能力的稳健提升。
这种交替策略实际上是将“定向引导”与“自由探索”相结合,既避免了纯 RL 的“野蛮生长”,也超越了纯 SFT 的“照本宣科”,最终实现了模型综合能力的全面进化。同时,尽管蒸馏在某些场景下(如移动端轻量化)有其独特优势,但它并不能替代这种系统性的优化路径。
【相关】
- 深度学习的局限性研究综述
- o3 deep research: 深度学习局限性研究报告
- 深度学习的基石:多层感知机
- o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
- RPA 赛道与大模型Copilots早期创业者的困局
- Transformer 和注意力机制简介
- 立委科普:如何理解自注意力机制中的QKV分工?
- DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
- DeepSeek 笔记:R1 部署阶段的推理机制
- 从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
- 推理强化学习是端到端的监督,推理过程的非监督
- DeepSeek 风暴下看看它的论文
- 大模型风云诡谲的下半场:scaling 失效?