BERT 双向 vs. GPT 单向与“低秩之虑”

1. “低秩”到底在说什么?

别把它理解成某个单一注意力矩阵的严格秩。在表征学习里,人们更关心整批隐藏向量的“可用维度”。做个想象实验:收集一大批句向量,做 PCA,若前几个主成分吃掉了绝大部分方差,剩下维度几乎没贡献——这就是“低有效秩(low effective rank)”。主成分越“一家独大”,熵越低,e-rank 越小——可用维度就越少。

反之,“有效秩更高”指的是模型学到的向量,真正独立在起作用的维度更多,不是名义上有 1024 维、实际只用到三五个大方向。这些向量在空间里更均匀地分散,简单说,点云更像一个“球”,不像一根“扁长的刺”或一个“瘦长的椭球”

如何诊断低秩?

    • 取一批句/词向量,做 PCA:看 Top-1/Top-3 方差占比 是否畸高。
    • 观察余弦相似度分布是否过度集中(大量样本对彼此很像)。

先说结论:在相同规模与数据条件下,GPT 的单向自回归(Autoregressive, AR)训练往往产生有效秩更高的表示;而BERT 的双向掩码建模(Masked Language Modeling, MLM)更容易出现有效秩(effective rank)偏低的现象。此所谓“低秩之虑”。现象上看,原因在于目标函数 + 训练信号形态诱导的几何副作用。

真正决定命运的,不是注意力矩阵的几何副作用,而是更深层的设计哲学。为什么早在 1964 年,先知般的数学家和计算学家就对“序列压缩”抱以厚望?因为预测“下一个 x”天然保留了因果链,而“填空式”的 xx-in-context 恰恰切断了因果关系。序列并不保证因果,但通用智能必然需要因果,而非序列必然无法达成因果。这就是 BERT 的宿命——再强大,也只是一个 deep parser,而无法解锁通用智能。

2. 为什么“双向更易低秩”?

BERT:MLM 的稀疏监督与双向对称

BERT(Bidirectional Encoder Representations from Transformers)用的是 MLM:只对被 mask 的少数位置(约15%掩码)做预测。

    • 监督稀疏:只有约 15% 的位置被直接约束,大量未遮位置不参与损失,整体梯度稀薄
    • 梯度共线性:同一上下文片段内,多个被遮位置同时看见左右文,其“证据”高度相似,梯度方向容易同向,把表示“拧向”少数主轴。
    • 对称导致平均化:双向可见降低了不同位置的功能差异,隐状态趋于同质化,句向量在空间里挤作一团
    • 伪似然近似:MLM最大化的是条件子集的伪似然,并未直接约束完整联合分布,可辨识自由度相对不足。

监督稀疏且同质:MLM 的梯度共线性

BERT 的目标是 遮住约 15% 的位置去预测。未被遮住的位置没有直接监督;而同一段上下文里,被遮住的多个位置看见几乎相同的信息(左右都可见),它们产生的梯度方向高度相似(共线性)。长期训练容易把表示拧向少数主轴,有效秩下降。

把同一批句向量/词向量的协方差矩阵做特征分解,若少数主成分吞掉了大部分方差,说明向量都挤在少量方向,可用维度变少,这就是“低有效秩”。Effective Rank 越小——下游线性可分性、检索可区分度以及下游泛化都会受限。

在一个窗口内,所有 token 都能看见左与右,信息对称使不同位置承担的“角色”差异变小,隐藏状态趋向同质化。这就是双向对称导致的“平均化”。聚合到句向量时,常出现“向量挤成一团”的现象,做检索/聚类会感到分辨力不足。

MLM 近似的是伪似然:每次只预测被 mask 的局部条目;与之相比,AR 最大化的是完整联合分布。

3. GPT:AR 的密集监督与单向性

GPT(Generative Pretrained Transformer)采用 AR:链式分解直接最大化联合概率,信息更“全”。这与经验上“表示更分散(有效秩更高)”相呼应。

    • 处处有监督每个位置参与损失,梯度信号密集且多样,降低了样本间梯度的共线性。更容易拉开表示,填满更多维度。
    • 单向性(只看左侧):不同位置可见的上文不同,功能分化更明显。只看“左边”的不对称,迫使不同位置承担差异化的信息职责,抑制“平均化”。这在下游线性探针、语义检索、零样本任务中,常体现为更稳定的线性可分性。
    • 信息更充分:直接拟合联合分布,与经验上的有效秩更高相呼应。

小结:MLM 的“稀疏+对称”与AR 的“密集+单向”,分别把表示几何往低秩更接近满秩的两端推。

4. 为什么“GPT 不靠双向也能把理解做强”

理解能力不是由“双向/单向”的名义决定,而是由目标如何强制模型组织与分配信息决定。AR 的密集监督 + 方向打破对称 + 联合分布建模,天然塑造了更“张力十足”的表示空间;再叠加监督后训练如指令微调(SFT)、人类反馈强化(RLHF/ DPO)、思维链(CoT)与测试时计算(Test-Time Compute,Self-Consistency/工具调用/ToT等),“理解—推理—生成”能力被系统性放大。这解释了“不依赖双向编码器,GPT 也把‘理解’做强”这一事实脉络。

为什么设计哲学决定命运

    • GPT 的选择:预测下一个 token(Next-Token Prediction, NTP)。这个选择不是随便的,而是深深扎根在计算机科学的底层思想里。早在 1964 年 Kolmogorov 与 Solomonoff 就指出:任何序列的规律都可以被“最短程序”压缩捕捉,而序列的本质就是因果链。

    • BERT 的选择:预测被遮掉的 token(masked token in context)。这种“填空式”学习虽然能捕捉句法、语义、上下文依赖,但它打破了因果链,失去了过程性。语言被拆成碎片,无法自然映射成“因 → 果”的函数。


为什么序列 = 因果的必要条件

  • 任何智能任务,本质都是 y=F(x)y = F(x),即输入(因)映射到输出(果)。

  • 序列学习天生顺应了这种因果结构:一个 token 在前,另一个 token 在后,天然有方向感。

  • 序列未必总是严格的因果(比如“天空是蓝色”里的“蓝色”是描述而非真正因果),但非序列一定无法捕捉因果。这是 BERT 的宿命:它可以成为极好的 deep parser,却不可能解锁通用智能。

5. 总结

    • MLM(双向):监督稀疏且相似 → 梯度共线 → 表示平均化 → e-rank 下降;
    • AR(单向):监督密集且异质 + 方向性打破对称 → 表示分散 → e-rank 升高。

 


发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理