生成式AI学习中容易混淆的几个术语

test time / reasoning / inference 辨析

推理模型是当前生成式AI的主流热点，带火了一个热词（buzz word）叫 test time compute，咱们就先从它谈起。

从模型开发者视角，test time（测试时间）针对的是 training time （训练时间）。众所周知，这是机器学习的两个阶段，一个是在线，一个是离线。训练模型好比是软件开发；测试模型就是软件测试。模型测试阶段就是常说的（在线）推理（inference）阶段，所以 test time 又叫 inference time。

问题是，中文翻译“推理”对应了英文两个词：inference 和 reasoning，业内人士很多人是认为后者才是推理正解，而前者是错译（misnomer），合适的翻译是“推断”。但“推理”的一词二用已经混淆并流行了很久，社区习惯上不一定能改过来。但对于后学，还是要辨析清楚才好。

test time compute 之所以流行，是因为大模型领域近几个月的“范式转变”。社区依据预训练scaling law原来一直聚焦基座大模型的做大做强，但发现大算力带来大智能的效益递减，进入了平台期。于是把重心转移到后训练的强化学习，发展了一种称为 System 2 慢思维模式的推理模型。这种推理模型最大的特点就是运行起来慢了，原来的秒回现在是慢了几拍才回复，消耗了更多在线时间和在线推断的算力（即 test/inference time compute）。

按常理，在线计算量增加，模型运行慢了，听上去是在退步，而不是进步。但好消息是，模型对于复杂问题的处理智能飙升。时间换质量，当然应该看好这个新方向。慢思维推理模型的成就，就好比人类的三思而后行。一般而言，凡事喜欢琢磨的人，比不假思索就行动的人，更有智慧，也更加靠谱。学会了慢思维（术语叫思维链）的大模型亦是如此。

模型训练阶段，无论是预训练还是后训练，都是离线进行的，迭代循环，在改变模型的参数，模型并未成形，属于开发进行时。而 test time 说的是模型已经完成阶段。严格说，test time 是内部试运行阶段，让 QA（quality assurance）部门在上线发布前做测试。但现在谈 test time compute，已经不分内部测试还是用户使用，所以更准确的术语还是 inference time compute。

白老师说：

Inference当初译成推理就错，真的推理Reasoning不来还则罢了，这回真的来了，将错就错都难。

我说：

不知是不是下意识，以前一直有意无意地把 inference 与统计预测关联得更紧，而把 reasoning 与符号演绎（deduction）划了等号。前者是统计性的，后者是确定性的。（概率性）推断就是（统计性）预测，statistical inference。不知道受到了什么的暗中影响。

老友尼克说：

本意也差不多是这个意思。reasoning是偏deduction的。

大模型的术语最早借自于统计，统计中区分建模与inference两个阶段，大模型训练相当于建模。统计中inference翻译为“推断”。简中自媒体乱翻导致业界人也瞎起哄，好像上海电影译制厂把中国两代人的英文发音都带偏了。

但是定理证明community也用inference，好多会都以此冠名，所以很难把inference与reasoning完全隔开。相对讲，reasoning更偏deduction，最好的办法是在可能引起歧义时括号英文。

abduction在逻辑里是美国实用主义的特定叫法，源自Peirce。这个意思是把建模和inference合到一起的意思，就是Solomonoff Induction的不严谨的哲学说法。inference出错时，再去修正模型，the whole nine yard。在Kolmogorov Complexity中，inference被称为logic depth 。。。

其实，inference time 口语中也叫 running time 或 runtime，其他的近义词和关联词还有很多： test-time，real time，decoding time, prediction time, service time, execution time, on-the-fly computing time ...

【外一篇：推理范式演进中的概念】

1.1 训练与推断的二分

机器学习系统存在两个核心阶段：

- 训练时间（Training Time）：参数空间Θ的优化过程，目标函数为误差最小化 minL(θ;D_train)
- 推断时间（Inference Time）：固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)

大语言模型(LLM)领域的最新进展显示，通过引入思维链(CoT)机制，推断阶段的计算量（test time compute）显著增长。

1.2 逻辑学视角

推理类型	逻辑结构	确定性	典型应用
演绎	前提→必然结论	确定性	数学证明
归纳	个案→普遍规律	概率性	趋势发现
溯因	现象→最佳原因	启发式	诊断推测

在传统的符号逻辑语境下，Reasoning 特指演绎推理的符号化过程，但考察当下的LLM推理模型，reasoning 最多只是对逻辑演绎的符号化模拟，本质上仍然是概率模型的推断（inference）生成；而Inference对应概率模型中的推断过程，本质是大数据压缩后的经验性模式归纳。溯因在大模型范式下，实现启发式推测的手段也还是大数据压缩后的经验性（逆势）模式归纳。总之，生成式AI大模型以不变应万变，各种思考推理过程一律采用下一词元预测（Next Token Prediction）的 inference 实现。

1.2 认知科学维度

Kahneman在《思考，快与慢》中提出的双系统理论为理解大脑行为提供新视角：

- System 1（快思考）：直觉式响应 input→output，对应大模型 seq2seq 函数式生成模式

output=F(input)

- System 2（慢思考）：反思性推理 input→[Think]→output，体现为CoT(ChainofThought) 驱动的两阶段函数生成模式

CoT=F(input) & output=F(CoT)

1.3 推理模型的计算-智能增长关系

强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢？并无定论，一切刚刚开始，经验法则需要时间测量。

例如，当test time compute增加10倍时：
- 数学推理准确率提升多少？
- 响应延迟增长多少？