Transformer 和注意力机制简介

transformer架构及其注意力机制是主流GPT大模型的基础，特别特别重要。虽然这方面的科普和讲解已经汗牛充栋，但还是有很多朋友跟我说一头雾水或雾里看花。所以下决心写了三篇科普系列，试图做出我的理解贡献。

作为对主流AI有好奇心的同学，你可能早就听说过大名鼎鼎的大模型的基本框架 transformer及其“注意力机制”，觉得它们是高深莫测的概念。 你也许也读过那篇经典论文 Attention is all you need，但还是感觉云里雾里。别担心，这很正常，我们多数人都经过这个阶段！这篇论文确实有点“烧脑”，但它的核心逻辑其实并不复杂。

要理解AI大模型的Transformer架构，就需要拆解其工作流程。

首先应该了解一下大模型的工作原理和训练方式。

基础大模型通过原始大数据的“自监督学习”（self-srupervised learning），利用多层神经网络，获得数据相关的知识。自监督学习是一种特别的监督学习，它利用“掩码”获得监督信号。我们知道监督学习的训练数据是标注了输出目标作为监督信号的学习，但自监督无需人类标注，而是在数据中遮盖了部分数据点，让系统学习预测它（“填空”或“接龙”），以被遮盖的数据点作为标准答案和监督信号。主流的GPT大模型的掩码就是遮盖住下一个词，让系统仅仅根据上文来预测它（叫 next token prediction），这是当前生成式AI的主流模型。

当我们输入一段文字时，模型首先要做的就是把它切分成一个个基本单位（词元），然后给每个词元找到它的"字典释义"（向量表示）。

从输入到输出的全过程

1. 从“查词典”开始：Tokenization 和 Embedding

要理解整个输入文本，首先需要拆分基本单元，叫做 tokenization（分词），即，将文本拆解成序列 tokens（词元，文本的最小单位），这些 tokens 可能是完整词（如"work"）或子词（subword，如"un+believ+able"）。

词元是符号，而计算机对符号难以计算，它只玩得转数字，所以需要把词元转成数字。

每个 token 都会通过查一种嵌入（embedding）词典，把词元符号转化成一个数字化表示：多维向量。每个Token被转换为300-1024维的向量（想象给每个词建立很多概念维度的特征表示，例如：名词，单数，机构，金融，......）。Embedding 让词语有了可计算的语义空间关系。

多维向量好比一个“意义”空间，每个token的多维向量定义了这个token在意义空间的位置；token与其他tokens在不同维度的距离，就是它们在意义上的区分。这符合我们的常识：一个词的意义可以在与其他词的比较中显现。

这些向量不是随机生成的，而是通过海量语料训练出来的数字化表示，提供了词元的基本语义信息，即词元在意义空间的位置——例如"银行"的向量天然接近"金钱"，而与"树木"相距甚远。再如"苹果"这个词的向量，可能会包含"水果"、"科技公司"等多个方面的信息。

想象一下，你要让计算机理解一句话：“The cat sat on the mat”。

第一步：分词（Tokenization），先把这句话拆成一个个的 tokens：The+cat+sat+on+the+mat 。

第二步：查字典（Embedding）， 给每个 token 找一个数字化表示，也就是一个多维向量。

“cat” -> [0.1, 0.5, -0.2, ...]
“sat” -> [-0.3, 0.8, 0.1, ...]
...
（注：实际向量维度更高且值为连续分布）

简单来说：

Tokenization 将文本拆解成计算机容易处理分析的最小单位 token。
Embedding 把这些 token 转换成计算机容易运算组合的向量。

关键点： 嵌入词典得到的向量只是 token 的“初始意义表示”，它还没考虑这个token的具体语境。在向量表示中解码上下文意义是下面步骤的任务，用的就是transformer架构中的多层神经网络+注意力机制。

Transformer 的核心模块可以拆解为两部分：

1. 注意力机制：用于计算 token 之间的相关性，并动态更新 token 的表示。
2. 神经网络：用于处理 token 之间的信息转换。

整个 Transformer 由多个这样的模块堆叠而成，每一层都会重新计算 token 的表示，使得理解越来越深。

2. 注意力登场：根据上下文更新词义

现在，我们有了一串向量，每个向量代表一个 token 的“初始含义”。但问题来了，同一个词在不同语境下可能有不同的意思啊！比如，“bank” 可以是“银行”，也可以是“河岸”。

Transformer 架构的核心是 注意力机制（self-attention），其作用就是：根据上下文，动态地调整每个 token 的含义表示，反映与其他token的关系。

打个比方：在"我喜欢吃苹果"这句话里，"苹果"和"吃"的相关度很高，所以模型会更多地参考"吃"这个词来更新"苹果"的含义，从而确定这里的"苹果"指的是水果而不是公司。

怎么做呢？

模型通过QKV注意力计算每个词元与其他词元的注意力权重：
- Query：当前词元的特征向量（如"他"）
- Key：上下文词元的特征向量（如"警察","目击者"）
- Value：关联后的实际含义

- 例如，通过矩阵运算，发现"他"与"目击者"关联度最高，于是更新"他"的向量，使其携带"目击者"的信息。

计算“相关度”： 对于每个 token，我们都要计算它和句子中所有其他 token 的“相关度”，给不同的词元分配不同的"注意力权重"（attention scores）。这个“相关度”可以理解为：在理解当前这个 token 的含义时，其他 token 有多重要。

- 例如，在理解 "sat" 这个词时，"cat" 和 "mat" 显然比 "the" 更重要。

加权平均： 根据计算出的“相关度”（也就是词元的权重），把上下文中所有 token 的V向量 加权平均 起来，得到本token的一个新的向量表示。这个新的向量就是当前 token 在 这个特定句子 中的含义表示。

- 比如，"sat" 的新向量会更多地受到 "cat" 和 "mat" 向量的影响，而较少受到 "the" 向量的影响。

关键点： 注意力机制通过计算 token 之间的相关度，实现了对每个 token 含义的 动态更新。这种更新是 基于上下文 的，同一个 token 在不同的句子中会有不同的表示。

这样，每个 token 的意义不再是固定的，而是会根据整个句子的上下文动态变化。例如，在 "I saw a bat" 这句话中，"bat" 可能是 "蝙蝠"，也可能是 "球棒"，但注意力机制会结合上下文来推测其在上下文中更合适的含义。

关于注意力机制中QKV如何分工和工作的细节，可参照姊妹篇《立委科普：如何理解自注意力机制中的QKV分工？》。

3. Transformer 主干：多层递进的信息压缩

Transformer 的核心组块可以拆解为两大部分：

- 多头注意力层：用于计算 token 之间的相关性，并动态更新 token 的表示。
- 前馈神经网络层：非线性特征转换，进一步压缩信息（抽象、泛化）

整个 Transformer 由多个这样的模块堆叠而成，每一层都会重新计算 token 的表示，使得理解越来越深。根据组块的多寡，Transformer 会反复进行这个更新过程。就像人类理解文章时会反复琢磨一样，每一层都在加深对文本的理解。越深的层次可能捕获到越复杂的语义关系。

每个Transformer组块都在迭代升级认知，例如：
- 底层组块：捕捉局部语法（如"not...but..."的转折关系）
- 中层：理解"他指代的真实人物"
- 高层：把握全文主旨

Transformer的最大特点
1. 并行计算：词序与token处理解耦，并行处理所有token（对比此前RNN的线性低效）
2. 层次化理解：从字面含义到深层意图的渐进式解读，捕捉大大小小的规律性。

与前Transformer的RNN相比，架构优势的工程化体现

特性	RNN	Transformer
并行计算	序列依赖无法并行	全token并行处理
长程依赖处理	存在梯度衰减	直接全局注意力
训练效率	O(n)时间复杂度	O(1)层内时间复杂度
内存消耗	相对较低	随序列长度平方增长

4. Output：模型的最终预测

Transformer 模型可以用于各种各样的任务。不同的任务，输出（output）的形式也不同。

- GPT：预测下一个词（Next Token Prediction） 对于主流 GPT ，其最终的任务是预测下文，通过所谓“自回归”下一词元预测实现（自回归就是动态扩展上文，递归实现一个词一个词的接龙）。模型会根据已经深入理解的上下文，来决定接下来最合理的内容应该是什么。这一路打开了通用AI的路，原理是序列学习学到了一种通用任务的输入转输出的“密码”，但这是另一篇科普的内容了。

5. 总结

- Tokenization 和 Embedding 给计算机理解文本打下基础，好比查了词典。
- 注意力机制 计算 token 之间的相关性，并动态更新 token 表示。
- Transformer 由神经网络层 + 注意力层组成，层层优化 token 表示，涵盖不同层次的各种关系。
- 最终的 output 取决于任务，翻译模型是生成目标语言文本。GPT 负责预测下一个 token，最终发现这个简单的预测机制自然进化成解锁了各种任务的通用大模型。

【相关】