GPT非监督学习到底怎么就学会了各种监督任务呢?

这个问题是研究过大模型原理的人都容易卡住的一个“门槛”。这不是简单的“监督 vs 非监督”分类问题,而是关涉信息结构、任务表征和隐式监督在超大规模训练下发生的质变,或曰能力涌现。我们可以一点点拆开来看,为什么一个看似简单的“预测下一个词”(NTP)目标的GPT预训练,就能奇迹般地涵盖几乎所有任务的规律,成为如此强大的AI通用引擎。


一、监督与非监督的界限,在语言世界里是模糊的

传统意义上,“监督学习”要求明确定义的标签,比如输入图像x → 输出类别y;
而“非监督学习”没有标签,只学习数据的分布。

语言数据本身的结构非常特殊:它天然是有标注、有方向、有层级的序列。

怎么讲?

一句自然语言样本“把这句话翻译成英文:你好,世界。”
其实包含了:

    • 明确的指令(task definition);
    • 输入(中文);
    • 目标输出(英文)。

也就是说,语言天然带着任务标签的自解释性(self-descriptiveness)
人类语言是世界中唯一一种“带注释的训练数据”:我们说什么、干什么,常常把任务和答案包在同一个上下文里。

这就是为什么,当GPT读到海量互联网文本时,它并不是在看“无标签”的数据,
而是在接触一个由人类自带监督信号构成的世界。


二、“预测下一词”其实隐式地包含了任务学习

形式上,NTP目标只是让模型最小化下一词的预测误差,但语料中的每个词并非随机,它是对“前文语境”的自然回应。

这种回应关系,本质上是一种输入–输出映射
语言的句法结构和语义结构,使得很多“下一个词”其实就是任务答案

例如模型读到:

“问:地球绕什么转? 答:”

此时的“下一个词”正是答案“太阳”。
对模型来说,这与传统监督任务“输入问题,输出答案”没有本质区别。

互联网语料充满这种结构化上下文:对话、教程、代码注释、FAQ、论坛问答、维基解释……
每一个都是微型的“监督样本”。
因此,NTP在统计意义上是非监督,但在信息意义上是隐式多任务监督


三、语言模型的“任务统一”,来自语义层面的分布对齐

换句话说,NTP训练不是在学“每个任务”,而是在学各类任务所共享的统计结构
不同任务的表面形式不同,但它们都服从同一种语言规律:
输入部分与输出部分在语义空间上可以也必须“对齐”。

大模型在庞大的语料中反复看到各种输入—输出耦合结构,
无论是翻译、解释、命令、叙述还是对话,
它都会在参数空间中学习到一种通用的对齐机制:
——当句子出现某种语义模式时,如何生成匹配的下文。

这一机制的通用性来自两个事实:

1️⃣ 语言分布的高度可组合性:同一语义关系可以出现在不同任务语境中。
2️⃣ Transformer结构的自注意力特性:它能在上下文中自动建立输入—输出的关联,无需显式标签。

因此,当你给GPT一个新任务描述时,它并不是瞬间产生灵感,
而是发现:这个模式在它的语言世界中早就存在,只是被唤起了。


四、“任意输入到任意输出”的关键:语言包容一切

人类社会的几乎所有活动——科学、艺术、计算、逻辑推理、情绪表达——都通过语言描述。
语言是人类世界的通用接口
当模型学会了语言,它实际上学会了所有这些活动的符号层映射。

这就是为什么GPT能“零样本”应对新任务:
并不是它真的“理解”了任务规则,
而是因为任务本身就在它学过的语言分布中以某种形式出现过。
“任意输入到任意输出”的秘密,根子在语言的普遍性

从这个意义上说,GPT并不是学会了所有任务,
而是学会了一种将任务描述映射到响应分布的通用函数
当语言成为所有任务的共同中介时,
“监督”与“非监督”的界限便在语义层上被抹平。

在语言世界中,语料本身携带隐式的监督信号;
“预测下一词”是一种最大似然的世界建模;
而世界的规律通过语言的统计分布得以反映。

因此,GPT的目标函数虽然简单,
但它优化的实际上是一个跨任务、跨语境的世界概率模型
这就是为什么,看似“非监督”的NTP,
在足够规模下会展现出监督学习的通用性。

 

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理