CNN与RNN——让机器学会看与听

AI现代史从神经网络革命开始。其中CNN与RNN是当时的两个主流网络。

要让计算机学会“看”,第一步是让它理解邻近像素之间的关系。我们人类识别物体时,并不会一眼就看透整张图片,而是聚焦在不同的局部区域:眼睛、嘴巴、轮廓。卷积神经网络(CNN) 的原理正是模仿这一点。

CNN通过一个个“小窗口”(卷积核)在图片上滑动。每个小窗口只负责观察一个局部区域,比如 3×3 的像素块。它会学会在这个区域里发现某种模式——可能是一条边、一块颜色的变化、或一个曲线的转折点。

当这些“小窗口”在整张图片上重复扫描时,机器便能捕捉到图像中哪些局部形状最常出现。这些模式被不断组合、叠加,例如:第一层看出边缘,第二层看出形状,第三层看出“这像是一只猫的耳朵”。这就是CNN“分层提取特征”的直觉。

CNN的关键在于节省与复用:同一个小窗口(同一组参数)在图片的各处都可以使用——这叫“权重共享”。这使得机器能识别“猫耳朵”无论出现在左上角还是右下角,都是“猫耳朵”。这就是CNN真正解决的问题:让识别具备“位置不变性”。


看懂了图像,接下来要让机器听懂语音

语音与图像不同,它是按顺序展开的信号。一个句子的含义往往要依赖前后文。例如听到“我今天没去开会,因为——”,你自然会等后半句。机器也必须“记住前面”,才能理解后面。

循环神经网络(RNN) 就是为此设计的。它像一条有记忆的链,每一步的输出都会传给下一步,于是前面的信息可以“流”到后面,形成时间上的记忆。这叫因果建模。

但普通RNN的记忆很短——信息在长句子里会逐渐衰减。1997年,人们发明了 LSTM(长短期记忆网络),它加入了几个“门”来控制信息是保留还是丢弃。有用的信息可以保留几十个甚至上百个时间步,无关的噪声则自动忘掉。这让机器能在时间上保持理解的连贯。

简而言之:

CNN 让机器在空间上找到模式;
RNN/LSTM 让机器在时间上保持上下文。

它们一个解决“看”,一个解决“听”,共同构成了深度学习早期的两条神经主干——机器的“视觉皮层”和“听觉皮层”。正是在它们的基础上,后来语言模型的“思维皮层”才得以诞生。

发布者

立委

立委博士,多模态大模型应用咨询师。出门问问大模型团队前工程副总裁,聚焦大模型及其AIGC应用。Netbase前首席科学家10年,期间指挥研发了18种语言的理解和应用系统,鲁棒、线速,scale up to 社会媒体大数据,语义落地到舆情挖掘产品,成为美国NLP工业落地的领跑者。Cymfony前研发副总八年,曾荣获第一届问答系统第一名(TREC-8 QA Track),并赢得17个小企业创新研究的信息抽取项目(PI for 17 SBIRs)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理