深度学习的基石：多层感知机

一、单层感知机的致命缺陷

要理解多层感知机的突破性，我们先看一个经典案例：假设我们需要实现“异或”逻辑（XOR），定义如下：

| 输入A：0 | 输入B：0 | 输出：0 |
| 输入A：0 | 输入B：1 | 输出：1 |
| 输入A：1 | 输入B：0 | 输出：1 |
| 输入A：1 | 输入B：1 | 输出：0 |

当我们在坐标系中绘制这些点时，会发现正例(0,1)和(1,0)位于对角线两侧，形成一个典型的非线性可分问题。单层感知机的决策边界只能是直线，就像试图用一把直尺分开两堆交叉摆放的硬币——这是数学上证明不可能完成的任务（闵斯基1969年证明）。

二、解法：特征空间升维

关键思路：通过增加隐藏层，将原始二维输入投影到三维特征空间。

我们设计两个特殊神经元：

神经元H₁：激活条件 = 1*A + (-1)*B > 0.5
神经元H₂：激活条件 = (-1)*A + 1*B > 0.5

输入变换过程：

当输入(1,0)时：

H₁：1*1 + (-1)*0 = 1 → 激活
H₂：(-1)*1 + 1*0 = -1 → 不激活

当输入(0,1)时：

H₁：1*0 + (-1)*1 = -1 → 不激活
H₂：(-1)*0 + 1*1 = 1 → 激活

当输入(1,1)时：

H₁：1*1 + (-1)*1 = 0 → 不激活
H₂：(-1)*1 + 1*1 = 0 → 不激活

此时特征空间变为：

神奇的事情发生了——原本线性不可分的问题，在特征空间中被转换为线性可分问题！

三、输出层

在输出层，我们只需一个简单的OR逻辑：

输出 = H₁ OR H₂

此时只需一条直线就能完美分割正负例。这种「空间变换+线性分割」的思想，正是深度学习突破维度诅咒的武器。现代神经网络中，每个隐藏层都在进行更复杂的空间扭曲，最终在高维特征空间中用超平面分割数据。

四、数学本质：非线性变换

整个过程可视为：

f(X) = σ(W₂·σ(W₁X + b₁) + b₂

其中：

W₁是第一层权重矩阵 [[1,-1], [-1,1]]
b₁是偏置向量 [-0.5, -0.5]
σ是阶跃激活函数
W₂是输出层权重 [1,1]
b₂是输出偏置 -0.5

这个结构实现了：
1. 第一层：将输入空间扭曲为线性可分的新空间
2. 第二层：在新空间中进行线性分类

传统OR门的感知机表达式：

输出 = 1*H₁ + 1*H₂ - 0.5 > 0

每个输入的权重都是1，表示H₁和H₂同等重要
当任意一个输入为1时，加权和为1；两个都为1时和为2
设置阈值0.5（移项后表达式为加权和 > 0.5）
只要有一个输入为1（1 > 0.5），即触发激活
两个都为0时（0 > 0.5）不激活

用真值表验证公式的正确性：

H₁	H₂	计算过程	结果
0	0	0+0-0.5 = -0.5	0
0	1	0+1-0.5 = 0.5	1
1	0	1+0-0.5 = 0.5	1
1	1	1+1-0.5 = 1.5	1

（注：在XOR场景中，H₁和H₂不会同时为1，最后一行为理论验证）

用Python实现这个经典XOR网络：

import numpy as np

# 定义网络结构
W1 = np.array([[1, -1], [-1, 1]])  # 第一层权重
b1 = np.array([-0.5, -0.5])        # 第一层偏置
W2 = np.array([1, 1])              # 输出层权重
b2 = -0.5                          # 输出层偏置

def perceptron(X):
    # 第一层计算
    h = np.heaviside(np.dot(X, W1) + b1, 0)
    # 输出层计算
    return np.heaviside(np.dot(h, W2) + b2, 0)

# 测试所有输入
inputs = [[0,0], [0,1], [1,0], [1,1]]
for x in inputs:
    print(f"输入{x} → 输出{perceptron(x)}")

输出结果：

输入[0, 0] → 输出0
输入[0, 1] → 输出1
输入[1, 0] → 输出1
输入[1, 1] → 输出0

六、历史意义与延伸

这个简单案例揭示了深度学习的核心思想：

- 层次化处理：如同视觉皮层V1→V2→V4的信息处理流程
- 分布式表示：单个概念由多个神经元协同表示
- 端到端学习：现代网络通过反向传播自动学习W,b参数

今天的Transformer架构依然延续这个基本原理，只是：

- 隐藏层数从2层增加到数百层
- 手动设计参数变为自动优化
- 阶跃激活变为ReLU等平滑函数
- 增加了注意力机制等复杂交互

理解这个案例，就掌握了理解深度学习的钥匙——任何复杂网络，本质上都是这个「俄罗斯套娃」结构的扩展与优化。