BERT 双向 vs. GPT 单向与“低秩之虑”

1. “低秩”到底在说什么？

别把它理解成某个单一注意力矩阵的严格秩。在表征学习里，人们更关心整批隐藏向量的“可用维度”。做个想象实验：收集一大批句向量，做 PCA，若前几个主成分吃掉了绝大部分方差，剩下维度几乎没贡献——这就是“低有效秩（low effective rank）”。主成分越“一家独大”，熵越低， $e-rank$ 越小——可用维度就越少。

反之，“有效秩更高”指的是模型学到的向量，真正独立在起作用的维度更多，不是名义上有 1024 维、实际只用到三五个大方向。这些向量在空间里更均匀地分散，简单说，点云更像一个“球”，不像一根“扁长的刺”或一个“瘦长的椭球”

如何诊断低秩？

- 取一批句/词向量，做 PCA：看 Top-1/Top-3 方差占比 是否畸高。
- 观察余弦相似度分布是否过度集中（大量样本对彼此很像）。

先说结论：在相同规模与数据条件下，GPT 的单向自回归（Autoregressive, AR）训练往往产生有效秩更高的表示；而BERT 的双向掩码建模（Masked Language Modeling, MLM）更容易出现有效秩（effective rank）偏低的现象。此所谓“低秩之虑”。现象上看，原因在于目标函数 + 训练信号形态诱导的几何副作用。

真正决定命运的，不是注意力矩阵的几何副作用，而是更深层的设计哲学。为什么早在 1964 年，先知般的数学家和计算学家就对“序列压缩”抱以厚望？因为预测“下一个 x”天然保留了因果链，而“填空式”的 $x$ -in-context 恰恰切断了因果关系。序列并不保证因果，但通用智能必然需要因果，而非序列必然无法达成因果。这就是 BERT 的宿命——再强大，也只是一个 deep parser，而无法解锁通用智能。

2. 为什么“双向更易低秩”？

BERT：MLM 的稀疏监督与双向对称

BERT（Bidirectional Encoder Representations from Transformers）用的是 MLM：只对被 mask 的少数位置（约15%掩码）做预测。

- 监督稀疏：只有约 15% 的位置被直接约束，大量未遮位置不参与损失，整体梯度稀薄。
- 梯度共线性：同一上下文片段内，多个被遮位置同时看见左右文，其“证据”高度相似，梯度方向容易同向，把表示“拧向”少数主轴。
- 对称导致平均化：双向可见降低了不同位置的功能差异，隐状态趋于同质化，句向量在空间里挤作一团。
- 伪似然近似：MLM最大化的是条件子集的伪似然，并未直接约束完整联合分布，可辨识自由度相对不足。

监督稀疏且同质：MLM 的梯度共线性

BERT 的目标是 遮住约 15% 的位置去预测。未被遮住的位置没有直接监督；而同一段上下文里，被遮住的多个位置看见几乎相同的信息（左右都可见），它们产生的梯度方向高度相似（共线性）。长期训练容易把表示拧向少数主轴，有效秩下降。

把同一批句向量/词向量的协方差矩阵做特征分解，若少数主成分吞掉了大部分方差，说明向量都挤在少量方向，可用维度变少，这就是“低有效秩”。Effective Rank 越小——下游线性可分性、检索可区分度以及下游泛化都会受限。

在一个窗口内，所有 token 都能看见左与右，信息对称使不同位置承担的“角色”差异变小，隐藏状态趋向同质化。这就是双向对称导致的“平均化”。聚合到句向量时，常出现“向量挤成一团”的现象，做检索/聚类会感到分辨力不足。

MLM 近似的是伪似然：每次只预测被 mask 的局部条目；与之相比，AR 最大化的是完整联合分布。

3. GPT：AR 的密集监督与单向性

GPT（Generative Pretrained Transformer）采用 AR：链式分解直接最大化联合概率，信息更“全”。这与经验上“表示更分散（有效秩更高）”相呼应。

- 处处有监督：每个位置参与损失，梯度信号密集且多样，降低了样本间梯度的共线性。更容易拉开表示，填满更多维度。
- 单向性（只看左侧）：不同位置可见的上文不同，功能分化更明显。只看“左边”的不对称，迫使不同位置承担差异化的信息职责，抑制“平均化”。这在下游线性探针、语义检索、零样本任务中，常体现为更稳定的线性可分性。
- 信息更充分：直接拟合联合分布，与经验上的有效秩更高相呼应。

小结：MLM 的“稀疏+对称”与AR 的“密集+单向”，分别把表示几何往低秩与更接近满秩的两端推。

4. 为什么“GPT 不靠双向也能把理解做强”

理解能力不是由“双向/单向”的名义决定，而是由目标如何强制模型组织与分配信息决定。AR 的密集监督 + 方向打破对称 + 联合分布建模，天然塑造了更“张力十足”的表示空间；再叠加监督后训练如指令微调（SFT）、人类反馈强化（RLHF/ DPO）、思维链（CoT）与测试时计算（Test-Time Compute，Self-Consistency/工具调用/ToT等），“理解—推理—生成”能力被系统性放大。这解释了“不依赖双向编码器，GPT 也把‘理解’做强”这一事实脉络。

为什么设计哲学决定命运

- GPT 的选择：预测下一个 token（Next-Token Prediction, NTP）。这个选择不是随便的，而是深深扎根在计算机科学的底层思想里。早在 1964 年 Kolmogorov 与 Solomonoff 就指出：任何序列的规律都可以被“最短程序”压缩捕捉，而序列的本质就是因果链。
- BERT 的选择：预测被遮掉的 token（masked token in context）。这种“填空式”学习虽然能捕捉句法、语义、上下文依赖，但它打破了因果链，失去了过程性。语言被拆成碎片，无法自然映射成“因 → 果”的函数。

为什么序列 = 因果的必要条件

任何智能任务，本质都是 $y = F (x)$ ，即输入（因）映射到输出（果）。
序列学习天生顺应了这种因果结构：一个 token 在前，另一个 token 在后，天然有方向感。
序列未必总是严格的因果（比如“天空是蓝色”里的“蓝色”是描述而非真正因果），但非序列一定无法捕捉因果。这是 BERT 的宿命：它可以成为极好的 deep parser，却不可能解锁通用智能。

5. 总结

- MLM（双向）：监督稀疏且相似 → 梯度共线 → 表示平均化 → e-rank 下降；
- AR（单向）：监督密集且异质 + 方向性打破对称 → 表示分散 → e-rank 升高。