提问即成功的一半,另一半藏于LLM的语义一致性
大型语言模型(LLM)在推理任务上的惊人表现,正不断刷新我们对人工智能的认知。然而,通往更强推理能力的道路往往铺满了昂贵的“黄金”——人工标注的推理过程、验证过的答案或是定制的奖励模型。这些基于监督学习的强化方法,虽然有效,却也带来了成本和可扩展性的瓶颈。
就在今年春节期间,DeepSeek 推出的结果驱动/监督强化推理方案引发热议,大家探讨其背后机理。一个普遍的共识是,思维链(Chain-of-Thought, CoT)这类技术的本质,是在处理复杂任务时,于用户提问(Query)和模型回应(Response)之间,构建一座“慢思维”的信息桥梁。这就像一个平缓的斜坡(Ramp),旨在降低困惑度(Perplexity),将那些对于“快思维”而言存在信息鸿沟、难以一步到位的复杂问题,变得“丝滑可解”。
而今,来自天津大学和腾讯 AI Lab 的一篇新论文 《Right Question is Already Half the Answer: Fully Unsupervised LLM Reasoning Incentivization》,则沿着这条思路,迈出了更为激进而优雅的一步。它提出了 EMPO (熵最小化策略优化),一个全程无监督的强化推理框架,其效果据报道竟能与那些依赖答案的监督方法相媲美。
这篇论文读起来异常轻松,没有任何故弄玄虚的复杂理论,却如同一缕清风,推进了无监督学习的深入。它进一步证实了我们之前的猜想:只要给模型一个“场”,系统就能自发地选择那条通往更平滑、熵减的推理路径。
春节那阵,随着鞭炮声迎来 DeepSeek R1 zero 已经够震撼了,说明机器可以自主学习,自己再生数据强化自己的智力。这个工作等于是 zero 的“平方”:机器原来还可以从问题就能学到答案。细思有点恐。无监督学习这个概念有很久了吧,继发展到自(监督)学习带来的预训练大模型风暴后,现在发展到推理这份上也是让人开眼了。
EMPO 的“点石成金”之术:语义熵最小化
EMPO 的核心思想极其单纯:与其告诉模型“什么是对的”,不如让模型自己追求“什么是自洽的”。它认为,一个强大的推理模型,其输出应该是稳定且在语义上一致的。如何衡量这种一致性?答案是语义熵(Semantic Entropy)。
与关注词汇层面、容易受到表述方式干扰的经典香农熵不同,语义熵关注的是意义层面。EMPO 的做法是:
- 采样 (Sample): 对同一个问题,让当前的模型 step-by-step 生成多个(比如 G 个)推理过程和答案。
- 聚类 (Cluster): 使用简单的规则(如数学题中的正则表达式)或一个小型验证模型,将这 G 个答案按照最终表达的意义进行聚类。比如,无论推理过程如何,“答案是 42” 和 “最终结果:42” 都会被归为一类。
- 计算熵 (Calculate Entropy): 根据聚类结果,计算出每个“意义簇”的概率分布,并由此算出语义熵。如果所有答案都指向同一个意义,熵就最低;如果答案五花八门,熵就很高。
- 强化 (Reinforce): 将“语义一致性”(即低熵)作为内在奖励信号,应用到强化学习框架(如 GRPO)中。模型会得到奖励,如果它生成的答案属于那个最“主流”、最一致的意义簇。通过优化,模型被激励去产生那些能让整体语义熵降低的输出。
简单来说,EMPO 就是在鼓励模型:“在你自己的答案空间里,找到那个最‘合群’、最‘确定’的观点,并强化它!”
“窗户纸”背后的智慧与现实考量
EMPO 的简洁优雅并不意味着它的实现毫无挑战。论文中也提到了一些关键点和发现:
- 熵阈值 (Entropy Thresholding): 一个重要的 “catch”!直接最小化熵可能会让模型“钻牛角尖”,出现过拟合。因此,EMPO 引入了熵阈值——只对那些熵值处于中等范围的问题进行COT强化优化。它排除了模型极度不确定(高熵,可能过于混乱无法学习)或极度自信(低熵,无需再强化优化)的情况,确保了训练的稳定性和效果。
- 基座模型的重要性 (Importance of Base Model): EMPO 更像是在激发而非创造能力。推理路径的潜力很可能是在预训练阶段就已经埋下的。EMPO 的成功很大程度上依赖于强大的基座模型。这一点在 Qwen 和 Llama 上的对比实验中得到了印证:Qwen 因为预训练中包含了大量 QA 数据,具备了“指令跟随”和推理的“潜能”,EMPO 能直接在其上生效;而 Llama 基座则需要先进行一些 SFT “预热”,才能有效应用 EMPO。这提醒我们,无监督后训练并非万能药,它建立在坚实的预训练基础之上。
- 无需<cot>标签奖励: 这种方法甚至不需要
<cot>
这样的显式标签来引导。一句简单的提示,如Please resolve it step by step and put the final answer in {...}
,就足以提供一个让模型探索和优化其推理路径的伸缩“空间”。
意义与展望:无监督的“数据红利”
EMPO 的价值在于它捅破了一层窗户纸。它证明了,即使在完全没有外部答案的情况下,我们也能通过一个简单、优雅且内在驱动的机制,有效提升 LLM 的推理能力。这就像是提供了一波通用性极强的增强数据质量的红利——获取这份红利的唯一条件,就是只要把问题喂给系统进行强化学习(并辅以简单的聚类),就有可能获得准确率的提升。
论文标题的前半句是 “Right question is already half the answer”(好问题是答案的一半),我们可以接龙说:“the other half is embodied in LLM's internal semantic coherence” (另一半则蕴藏于 LLM 内部的语义一致性之中)。EMPO 正是通过最小化语义熵,让 LLM 在生成 CoT 和答案的过程中,更加和谐有序,从而找到那“另一半”答案。
基于这个研究的机理及其普适性,我们有理由相信,EMPO 所代表的这种极简无监督强化思路,将激发更多后续研究,去探索其边界,应用于更广泛的任务,并可能成为未来 LLM 后训练流程中的一个重要环节。
论文原文少有地亲民易懂,想进一步了解细节的同学,出门向左:https://arxiv.org/pdf/2504.05812。