AI现代史从神经网络革命开始。其中CNN与RNN是当时的两个主流网络。
要让计算机学会“看”,第一步是让它理解邻近像素之间的关系。我们人类识别物体时,并不会一眼就看透整张图片,而是聚焦在不同的局部区域:眼睛、嘴巴、轮廓。卷积神经网络(CNN) 的原理正是模仿这一点。
CNN通过一个个“小窗口”(卷积核)在图片上滑动。每个小窗口只负责观察一个局部区域,比如 3×3 的像素块。它会学会在这个区域里发现某种模式——可能是一条边、一块颜色的变化、或一个曲线的转折点。
当这些“小窗口”在整张图片上重复扫描时,机器便能捕捉到图像中哪些局部形状最常出现。这些模式被不断组合、叠加,例如:第一层看出边缘,第二层看出形状,第三层看出“这像是一只猫的耳朵”。这就是CNN“分层提取特征”的直觉。
CNN的关键在于节省与复用:同一个小窗口(同一组参数)在图片的各处都可以使用——这叫“权重共享”。这使得机器能识别“猫耳朵”无论出现在左上角还是右下角,都是“猫耳朵”。这就是CNN真正解决的问题:让识别具备“位置不变性”。
看懂了图像,接下来要让机器听懂语音。
语音与图像不同,它是按顺序展开的信号。一个句子的含义往往要依赖前后文。例如听到“我今天没去开会,因为——”,你自然会等后半句。机器也必须“记住前面”,才能理解后面。
循环神经网络(RNN) 就是为此设计的。它像一条有记忆的链,每一步的输出都会传给下一步,于是前面的信息可以“流”到后面,形成时间上的记忆。这叫因果建模。
但普通RNN的记忆很短——信息在长句子里会逐渐衰减。1997年,人们发明了 LSTM(长短期记忆网络),它加入了几个“门”来控制信息是保留还是丢弃。有用的信息可以保留几十个甚至上百个时间步,无关的噪声则自动忘掉。这让机器能在时间上保持理解的连贯。
简而言之:
CNN 让机器在空间上找到模式; RNN/LSTM 让机器在时间上保持上下文。
它们一个解决“看”,一个解决“听”,共同构成了深度学习早期的两条神经主干——机器的“视觉皮层”和“听觉皮层”。正是在它们的基础上,后来语言模型的“思维皮层”才得以诞生。