在 deepseek 带来的一浪一浪惊喜中,老友发现它不懂简单数学题,用的就是网上流行的小学算术的测试题,3.11 比 3.8 大吗:
这个问题的要害何在?
我在 DeepSeek 风暴下看看它的论文中解说了他们的结果导向的推理能力的强化学习。也指出结果导向的强化学习理论上可以学会合理的推理过程。但实际上不好说的。
对于上述数学题,答案是yes/no二分的,就是说,瞎蒙也有一半概率结果正确。这说明结果导向的监督信号区分度低(不可靠),这种弱监督自然影响了推理过程的学习。
三个办法。
第一是把模型做大做深,指望复杂性理论上的无损压缩可以做到极致,从而合理的推理作为“最短程序”最终被模型学到,理论上正确的推理会保证结果的正确性。但理论与实践的距离,可能让我们很难对此抱有太大信心。最短程序可能只是一个美好的梦想。
第二个办法是把针对性监督数据喂给模型,例如同类型的数学题的推理案例喂给它几千上万条,没有道理学不会。但针对性解决了这个问题,只是权宜之计。也许不久,人们会想到其他的答案监督信号弱,推理容易走歪的案例,来继续挑战它。
另一个常见的问题就是所谓“自我认知”的问题,who r u,如果没有针对性监督数据的注入,deepseek 以及很多其他的模型都会自称自己是 ChatGPT,毕竟ChatGPT核爆两年来,它的数据充斥互联网,不可能不受侵染。但这个问题已经进入专项解决的雷达屏上了,所以逐渐不是问题了。西方媒体有的还在说 deepseek 不过就是蒸馏 chatGPT 的,依据就是(他们测试过某个前期版本吧)deepseek bot 常自称是 open ai 开发的 chatGPT,但你现在上去试试,这种问题重复不了了。大概率是被专项数据解决了,记得他们论文也提到了这个自我认知的问题。
同理,3.11 vs 3.8 的大小比较这样的问题也是阶段性问题。以后不见了,也不必为它欢呼,大概率可能就是专项解决了,而不是因为算法或架构把智能真正提升了。
结果导向的监督信号不够强,是只认结果不看过程(白猫黑猫原则)的强化学习天生的短板,应该算是放弃 PRM(process reward model)的代价。那么,把过程奖励模型上马了,是不是就可以解决了呢?不知道。这就是第三条路,也许值得探索。但,again,上一篇博文说了,PRM 不好玩,不稳定,不好实现,虽然理论上可以帮助纠正推理过程中的胡说八道。
【后记】
刚才测试发现不能复现这个bug,看来早已解决了。也许老友昨天“亲测”的结果是忘了打开 deepthink?
【相关】
- DeepSeek 风暴下看看它的论文
- DeepSeek's R1 Paper: A Storm in AI LLM Circle
- The Turbulent Second Chapter of Large Language Models: Has Scaling Stalled?
- 大模型风云诡谲的下半场:scaling 失效?
- DeepSeek_R1 paper