CNN与RNN——让机器学会看与听

AI现代史从神经网络革命开始。其中CNN与RNN是当时的两个主流网络。

要让计算机学会“看”,第一步是让它理解邻近像素之间的关系。我们人类识别物体时,并不会一眼就看透整张图片,而是聚焦在不同的局部区域:眼睛、嘴巴、轮廓。卷积神经网络(CNN) 的原理正是模仿这一点。

CNN通过一个个“小窗口”(卷积核)在图片上滑动。每个小窗口只负责观察一个局部区域,比如 3×3 的像素块。它会学会在这个区域里发现某种模式——可能是一条边、一块颜色的变化、或一个曲线的转折点。

当这些“小窗口”在整张图片上重复扫描时,机器便能捕捉到图像中哪些局部形状最常出现。这些模式被不断组合、叠加,例如:第一层看出边缘,第二层看出形状,第三层看出“这像是一只猫的耳朵”。这就是CNN“分层提取特征”的直觉。

CNN的关键在于节省与复用:同一个小窗口(同一组参数)在图片的各处都可以使用——这叫“权重共享”。这使得机器能识别“猫耳朵”无论出现在左上角还是右下角,都是“猫耳朵”。这就是CNN真正解决的问题:让识别具备“位置不变性”。


看懂了图像,接下来要让机器听懂语音

语音与图像不同,它是按顺序展开的信号。一个句子的含义往往要依赖前后文。例如听到“我今天没去开会,因为——”,你自然会等后半句。机器也必须“记住前面”,才能理解后面。

循环神经网络(RNN) 就是为此设计的。它像一条有记忆的链,每一步的输出都会传给下一步,于是前面的信息可以“流”到后面,形成时间上的记忆。这叫因果建模。

但普通RNN的记忆很短——信息在长句子里会逐渐衰减。1997年,人们发明了 LSTM(长短期记忆网络),它加入了几个“门”来控制信息是保留还是丢弃。有用的信息可以保留几十个甚至上百个时间步,无关的噪声则自动忘掉。这让机器能在时间上保持理解的连贯。

简而言之:

CNN 让机器在空间上找到模式;
RNN/LSTM 让机器在时间上保持上下文。

它们一个解决“看”,一个解决“听”,共同构成了深度学习早期的两条神经主干——机器的“视觉皮层”和“听觉皮层”。正是在它们的基础上,后来语言模型的“思维皮层”才得以诞生。

自学习是思想革命,Transformer是工程火箭

很多人容易把“自(监督)学习”(Self-supervised Learning)和“Transformer”混为一谈。实际上,它们属于人工智能演化的两个不同层面。

自学习是一条算法路线,它回答的是:“智能能否在没有人工标注的情况下,从数据中自己学习知识?” 它的革命性在于——让AI不再依赖昂贵的监督数据,也能学会完成原本需要监督数据的任务。换句话说,AI第一次能够以非监督的方式实现监督学习的目标

过去,机器要识别情感、判断语义、理解问答,都需要人工标注的大量针对任务特定的训练样本,需要人工标注输出样本。而自学习则让语言本身成为监督者。通过语言接龙的预测任务(next token prediction),模型自动在语言中抽取规律,形成一种“通用认知表征”,能被自然迁移到各种下游任务上。换句话说,模型 scale up以后,通用自学习可以自动解锁不同的专项任务。这是AI从“专用模型”迈向“通用智能”的真正奇迹。

Transformer则属于模型架构层面的创新。它没有改变“学什么”的逻辑,而是彻底改变了“怎么学”。RNN需要一字一字地顺序处理文本,无法并行;Transformer通过自注意力机制(self-attention)让模型一次性同时“看到”窗口里的整个文本,实现了训练与推理的高度并行化。这极大地提升了效率,也让自学习的算法路线有了真正的落地条件。

可以说,

自学习让AI“知道自己该学什么”(找到了通用智能的目标函数),
Transformer让AI“有能力学得快、学得深”。

正是两者的结合,打破了人工智能长达数十年的知识瓶颈——AI第一次从无监督数据中学会了有监督的能力,从单一任务的专家系统,跃迁为跨任务的通用智能体。

自学习是生成式AI的核心,主要通过两大支柱算法模型实现:第一个是 GPT,目标函数是“下一词预测”;第二个是 Diffusion(扩散模型),目标函数是“噪音预测”(为了“去噪”)。它们都是通过海量原生数据(raw corpora)的自学习获得智能。

前几年,大模型刚开始发飙的时候,有一个观察让我想了很久: 生成式AI说到底都是在无中生有。可这是怎么发生的呢?

你看扩散模型,做的就是一件事,去除噪音:把一片混沌渲染成声色犬马、活色生香, 佛家说是“由空见色”。

无中生有的事儿,其实一直存在。每个做过梦、幻过视的人,都有真切的体验。它的存在前提是要给定一个世界 ,然后大脑或模型形成一个世界模型。这就是自学习所做的勾当。有了这个世界模型,空到色的桥梁就搭起来了。就是说,无中生有是表象,还是要色在空前。由色入空,方可由空见色。

大模型具体操作(推理生成)的时候,总是从一个trigger条件开始,通过条件概率生成。条件匮乏,世界模型脑补想象的空间就大,出来的结果难以预测,但一样鲜活。条件苛刻,世界模型的幻觉受到压制,结果相对可预测,模型主要是在填补细节而已。

无论gpt还是diffusion,工作原理都是这样的。