自学习是思想革命,Transformer是工程火箭

很多人容易把“自(监督)学习”(Self-supervised Learning)和“Transformer”混为一谈。实际上,它们属于人工智能演化的两个不同层面。

自学习是一条算法路线,它回答的是:“智能能否在没有人工标注的情况下,从数据中自己学习知识?” 它的革命性在于——让AI不再依赖昂贵的监督数据,也能学会完成原本需要监督数据的任务。换句话说,AI第一次能够以非监督的方式实现监督学习的目标

过去,机器要识别情感、判断语义、理解问答,都需要人工标注的大量针对任务特定的训练样本,需要人工标注输出样本。而自学习则让语言本身成为监督者。通过语言接龙的预测任务(next token prediction),模型自动在语言中抽取规律,形成一种“通用认知表征”,能被自然迁移到各种下游任务上。换句话说,模型 scale up以后,通用自学习可以自动解锁不同的专项任务。这是AI从“专用模型”迈向“通用智能”的真正奇迹。

Transformer则属于模型架构层面的创新。它没有改变“学什么”的逻辑,而是彻底改变了“怎么学”。RNN需要一字一字地顺序处理文本,无法并行;Transformer通过自注意力机制(self-attention)让模型一次性同时“看到”窗口里的整个文本,实现了训练与推理的高度并行化。这极大地提升了效率,也让自学习的算法路线有了真正的落地条件。

可以说,

自学习让AI“知道自己该学什么”(找到了通用智能的目标函数),
Transformer让AI“有能力学得快、学得深”。

正是两者的结合,打破了人工智能长达数十年的知识瓶颈——AI第一次从无监督数据中学会了有监督的能力,从单一任务的专家系统,跃迁为跨任务的通用智能体。

自学习是生成式AI的核心,主要通过两大支柱算法模型实现:第一个是 GPT,目标函数是“下一词预测”;第二个是 Diffusion(扩散模型),目标函数是“噪音预测”(为了“去噪”)。它们都是通过海量原生数据(raw corpora)的自学习获得智能。

前几年,大模型刚开始发飙的时候,有一个观察让我想了很久: 生成式AI说到底都是在无中生有。可这是怎么发生的呢?

你看扩散模型,做的就是一件事,去除噪音:把一片混沌渲染成声色犬马、活色生香, 佛家说是“由空见色”。

无中生有的事儿,其实一直存在。每个做过梦、幻过视的人,都有真切的体验。它的存在前提是要给定一个世界 ,然后大脑或模型形成一个世界模型。这就是自学习所做的勾当。有了这个世界模型,空到色的桥梁就搭起来了。就是说,无中生有是表象,还是要色在空前。由色入空,方可由空见色。

大模型具体操作(推理生成)的时候,总是从一个trigger条件开始,通过条件概率生成。条件匮乏,世界模型脑补想象的空间就大,出来的结果难以预测,但一样鲜活。条件苛刻,世界模型的幻觉受到压制,结果相对可预测,模型主要是在填补细节而已。

无论gpt还是diffusion,工作原理都是这样的。

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理