CNN与RNN——让机器学会看与听

AI现代史从神经网络革命开始。其中CNN与RNN是当时的两个主流网络。

要让计算机学会“看”，第一步是让它理解邻近像素之间的关系。我们人类识别物体时，并不会一眼就看透整张图片，而是聚焦在不同的局部区域：眼睛、嘴巴、轮廓。卷积神经网络（CNN） 的原理正是模仿这一点。

CNN通过一个个“小窗口”（卷积核）在图片上滑动。每个小窗口只负责观察一个局部区域，比如 3×3 的像素块。它会学会在这个区域里发现某种模式——可能是一条边、一块颜色的变化、或一个曲线的转折点。

当这些“小窗口”在整张图片上重复扫描时，机器便能捕捉到图像中哪些局部形状最常出现。这些模式被不断组合、叠加，例如：第一层看出边缘，第二层看出形状，第三层看出“这像是一只猫的耳朵”。这就是CNN“分层提取特征”的直觉。

CNN的关键在于节省与复用：同一个小窗口（同一组参数）在图片的各处都可以使用——这叫“权重共享”。这使得机器能识别“猫耳朵”无论出现在左上角还是右下角，都是“猫耳朵”。这就是CNN真正解决的问题：让识别具备“位置不变性”。

看懂了图像，接下来要让机器听懂语音。

语音与图像不同，它是按顺序展开的信号。一个句子的含义往往要依赖前后文。例如听到“我今天没去开会，因为——”，你自然会等后半句。机器也必须“记住前面”，才能理解后面。

循环神经网络（RNN） 就是为此设计的。它像一条有记忆的链，每一步的输出都会传给下一步，于是前面的信息可以“流”到后面，形成时间上的记忆。这叫因果建模。

但普通RNN的记忆很短——信息在长句子里会逐渐衰减。1997年，人们发明了 LSTM（长短期记忆网络），它加入了几个“门”来控制信息是保留还是丢弃。有用的信息可以保留几十个甚至上百个时间步，无关的噪声则自动忘掉。这让机器能在时间上保持理解的连贯。

简而言之：

CNN 让机器在空间上找到模式；
RNN/LSTM 让机器在时间上保持上下文。

它们一个解决“看”，一个解决“听”，共同构成了深度学习早期的两条神经主干——机器的“视觉皮层”和“听觉皮层”。正是在它们的基础上，后来语言模型的“思维皮层”才得以诞生。

立委关于大模型与AI的博客汇总

发布者

立委

立委博士，多模态大模型应用咨询师。出门问问大模型团队前工程副总裁，聚焦大模型及其AIGC应用。Netbase前首席科学家10年，期间指挥研发了18种语言的理解和应用系统，鲁棒、线速，scale up to 社会媒体大数据，语义落地到舆情挖掘产品，成为美国NLP工业落地的领跑者。Cymfony前研发副总八年，曾荣获第一届问答系统第一名（TREC-8 QA Track），并赢得17个小企业创新研究的信息抽取项目（PI for 17 SBIRs）。查看立委的所有文章

发布者

立委

发表回复