当下大模型的竞争,有一条醒目的参数:Context Length(上下文长度)。从 GPT-3 的 2k token,到 GPT-4 的 32k,再到最新宣称支持百万甚至千万级别 token 的模型,仿佛谁的窗口更长,谁就更接近“通用智能”。
然而,冷静下来我们必须追问:在注意力机制的 低秩瓶颈 下,超长上下文到底有多大意义?
首先,理论上的全局可见,并不等于实际的全局理解。虽然 Transformer 的公式允许每个 token 与所有前文交互,但由于键/查询维度dₖ 远小于序列长度 L,注意力矩阵的有效秩天然很低,大多数信息都被压缩进少数“主成分”。实测发现,几千 token 内性能提升显著,但一旦扩展到几十万 token,模型对最早的输入往往出现“记忆衰减”,检索定位能力大幅下降。
其次,计算代价几乎不可持续。注意力的复杂度是意味着,上下文翻一倍,计算量和显存需求是平方级增加。这意味着超长 context 往往是“能跑”而非“好用”。
为什么还要卷超长 context?原因不外乎三点:一是营销与差异化,数字最容易传播,用户吃这一套;二是满足部分场景的确切需求,例如法律合同、整本书稿、长代码库,哪怕理解有限,但能一次性放入就是体验的巨大改进;三是为未来架构和工具(状态空间模型、记忆模块、检索增强RAG)留出可操作的空间。
真正的突破,可能不在于“窗口多长,胃口多大”,而在于“消化是否高效”。与其盲目堆长,不如发展方便有效的 RAG(检索增强生成)、层级摘要、外部工具调用、记忆管理等机制,让模型在关键处投入计算,而不是把每一条细枝末节都卷进注意力里。
换句话说,超长上下文更像是一场“数字游戏”:它扩展了交互的广度,但并没有解决模型对信息利用的深度。要想突破这一局限,还得靠新的建模范式。