1.1 训练与推断的二分
机器学习系统存在两个核心阶段:
- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train)
- 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)
大语言模型(LLM)领域的最新进展显示,通过引入思维链(CoT)机制,推断阶段的计算量(test time compute)显著增长,也收获了相应的智能提升。
1.2 逻辑学视角
推理类型 | 逻辑结构 | 确定性 | 典型应用 |
---|---|---|---|
演绎 | 前提→必然结论 | 确定性 | 数学证明 |
归纳 | 个案→普遍规律 | 概率性 | 趋势发现 |
溯因 | 现象→最佳原因 | 启发式 | 诊断推测 |
在传统的符号逻辑语境下,Reasoning 特指演绎推理的符号化过程,但考察当下的LLM推理模型,reasoning 最多只是对逻辑演绎的符号化模拟,本质上仍然是概率模型的推断(inference)生成;而Inference对应概率模型中的推断过程,本质是大数据压缩后的经验性模式归纳。溯因在大模型范式下,实现启发式推测的手段也还是大数据压缩后的经验性(逆势)模式归纳。总之,生成式AI大模型以不变应万变,各种思考推理过程一律采用下一词元预测(Next Token Prediction)的 inference 实现。生成机理不变,但 input-output 函数范式变了。
1.2 认知科学维度
Kahneman在《思考,快与慢》中提出的双系统理论为理解大脑行为提供新视角:
- System 1(快思考):直觉式响应 input→output,对应大模型 seq2seq 函数式生成模式
output=F(input)
- System 2(慢思考):反思性推理 input→[Think]→output,体现为CoT (ChainofThought) 驱动的两阶段函数生成模式
CoT=F(input) & output=F(CoT)
大模型 F 的底层逻辑不变,但强化学习启动了思维链外化,搭建了应对复杂问题的信息桥梁CoT,增加了大模型推断的可解释性,最重要地,大幅提升了复杂问题的解决能力。
1.3 推理模型的计算-智能增长关系
强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢?并无定论,一切刚刚开始,经验法则需要时间测量。
例如,当test time compute增加10倍时:
- 数学推理准确率提升多少?
- 响应延迟增长多少?
`
1.4 答问
「蔡江滨l六问:早安,能否理解为cot的生成是推断inference ,根据cot生成的具体内容是推理?@wei li 」
cot+answer 的区分是人为的格式区分,对于ntp GPT 模型,它们都是概率性 inference 生成的 response
如果这个response 是针对理工类推理题目,那么这种 inference 是对于人类 reasoning,尤其是演绎( deduction)的模拟,但不是严格意义上的逻辑演绎。
如果是创作类任务,inference 中的 CoT 就是 planning/pondering 等思考过程, inference 中的answer就是生成结果,都谈不上逻辑推理。
reasoning model 这个实命名也不准确,还不如叫思考模型、思维链模型、慢思维模型、意识流模型、内心独白模型、小九九模型,总之就是 system 2,与传统的 system 1 模型比,只是多了个 CoT。
【原文】