机器学习算法——神经网络2（感知机）

感知机（Perception）是由两层神经元组成。输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称之为“阈值逻辑单元”，如下图所示。图两个输入神经元的感知机网络结构示意图感知机能很容易的实现逻辑与、或、非运算（只考虑0和1的取值）。注意到,假设f是跃阶函数，有“与”（）：令，则，仅在时，y=1。“或”（）:令，则，仅在或时，y=1。"非"（），令，则，仅在时，y=0;当时，y=1

Vicky_xiduoduo

1743人浏览 · 2022-05-10 17:38:24

Vicky_xiduoduo · 2022-05-10 17:38:24 发布

感知机（Perception）是由两层神经元组成。输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称之为“阈值逻辑单元”，如下图所示。

图两个输入神经元的感知机网络结构示意图

感知机能很容易的实现逻辑与、或、非运算（只考虑0和1的取值）。注意到 $y=f(\sum_{i} w_ix_i-\theta)$ ,假设f是跃阶函数，有

“与”（ $x_1 \wedge x_2$ ）：令 $w_1=w_2=1,\theta = 2$ ，则 $y=f(1\cdot x_1+1 \cdot x_2-2)$ ，仅在 $x_1=x_2=1$ 时，y=1。
“或”（ $x_1\vee x_2$ ）:令 $w_1=w_2=1,\theta = 0.5$ ，则 $y=f(1\cdot x_1+1 \cdot x_2-0.5)$ ，仅在 $x_1=1$ 或 $x_2=1$ 时，y=1。
"非"（ $\overline{x}$ ），令 $w_1=-0.6,w_2=0,\theta = -0.5$ ，则 $y=f(-0.6\cdot x_1+0 \cdot x_2+0.5)$ ，仅在 $x_1=1$ 时，y=0;当 $x_1=0$ 时，y=1。

定义感知机：

假设输入空间（特征空间）是 $\chi \subset R^{n}$ ,输出空间是y={+1,-1}

输入 $x \in \chi$ 表示实例的特征向量，对应于输入空间（特征空间）的点，输出y表示实例的类别，由输入空间到输出空间的函数：

$f(x) = sign(w \cdot x +b)$

称为感知机。模型参数为：w和b.

符号函数：

$sign(x) = \left\{\begin{matrix} +1, x \geq 0\\ -1, x<0 \end{matrix}\right.$

感知机几何解释：

线性方程： $w \cdot x + b =0$

对应于超平面S，w为法向量，b截距，分离正负类。

分离超平面：

感知机学习策略

如何定义损失函数？

自然选择：误分类点的数目，但损失函数不是w,b连续可导，不宜优化。

另一选择：误分类点到超平面的总距离。

距离： $\frac{|w \cdot x_0+b|}{||w||},||w||=\sqrt{w_1^2+w_2^2+...+w_n^2}$

误分类点： $y_i(w \cdot x_i +b)<0$

误分类点距离： $\frac{-y_i(w \cdot x_i+b)}{||w||}$

总距离： $\frac{-\sum_{x_i \in M}{y_i(w \cdot x_i+b)}}{||w||}$ M为误分类点的数目

希望找到w和b，使得总距离最小，得到损失函数 $L(w,b)=-\sum_{x_i \in M} y_i(w \cdot x_i+b)$

感知机学习算法（有监督学习）

求解最优化问题：

$\underset{w_i,b}{min} L(w,b)=-\sum_{x_i \in M} y_i(w \cdot x_i+b)$

最基本的算法为随机梯度下降法：

首先任意选择一个超平面，w,b,然后不断极小化目标函数，损失函数L的梯度【各个偏导数构成的向量。】：

$\bigtriangledown_w L(w,b) = - \sum_{x_i \in M} y_i x_i$

$\bigtriangledown_b L(w,b) = - \sum_{x_i \in M} y_i$

选取误分类点更新：

$w\leftarrow w+ \eta y_ix_i, b \leftarrow b+ \eta y_i$

$\eta \in (0,1)$ 称为学习率。

所以感知机学习算法为：

===================================================================

输入：训练数据集 $T = \{(x_1,y_1), (x_2,y_2), ..., (x_N,y_N)\}$ ,其中， $x_i \in \chi = R^n, y_i \in{+1,-1}, i=1,2,...,N$ ,学习率 $\eta$

输出：w,b感知机模型 $f(x) = sign (w \cdot x +b)$

(1)选取初值 $w_0,b_0$

(2)在训练集中选取数据 $(x_i,y_i)$

(3)如果 $y_i(w \cdot x_i +b) \leq 0$

则 $w_t \leftarrow w_{t-1} + \eta y_ix_i, b_t \leftarrow b_{t-1}+\eta y_i$

(4)转至（2），直至训练集中没有误分类点。

===================================================================

感知机算法收敛性分析

算法的收敛性：证明经过有限次迭代可以得到一个将训练数据集完全正确划分的分离超平面及感知机模型。

将b并入权重向量w，记作： $\hat{w} = (w^T,b)$

$\hat{x} = (x^T, 1)^T, \hat{x} \in R^{n+1},\hat{w}\in R^{n+1}$

则， $\hat{w} \cdot \hat{x} =w \cdot x +b$

定理：设训练数据 $T = \{(x_1,y_1), (x_2,y_2), ..., (x_N,y_N)\}$ 是线性可分的，其中： $x_i \in \chi = R^n, y_i \in{+1,-1}, i=1,2,...,N$ ，则，存在满足条件 $||\hat{w}_{opt}||=1$ 的超平面 $\hat{w}_{opt} \cdot \hat{x} = w_{opt} \cdot x + b_{opt} =0$ 且存在 $\gamma >0$ ,对所有i=1,2,...,N， $y_i(\hat{w}_{opt} \cdot \hat{x}_{i}) = y_i (w_{opt} \cdot x_i + b_{opt}) \geq \gamma$

令 $R=\underset{1\geq i \geq N}{max} ||\hat{x}_{i}||$ ，算法在训练集上的误分类次数k满足不等式 $k\leq (\frac{R}{\gamma })^2$

证明略。

定理表明：误分类的次数k是有上界的：当训练数据集线性可分时，感知机学习算法原始形式迭代是收敛的。感知机算法是不稳定的：存在许多解，既依赖于初值，也依赖于迭代过程中误分类点的选择顺序。为得到唯一分离超平面，需要增加约束，就发展成了后来的支持向量机。

如果训练数据集线性不可分，会出现迭代震荡。

感知机学习对偶形式

基本思想：将w和b表示为实例xi和标记yi的线性组合的形式，通过求解其系数而求得w和b，对误分类点：

$w\leftarrow w+ \eta y_ix_i, b \leftarrow b+ \eta y_i$ --------------------> $w = \sum_{i=1}^{N} \alpha_iy_i x_i, b=\sum_{i=1}^{N} \alpha_iy_i, \alpha=\eta_i \eta$

输入：训练数据集 $T = \{(x_1,y_1), (x_2,y_2), ..., (x_N,y_N)\}$ ,其中， $x_i \in \chi = R^n, y_i \in{+1,-1}, i=1,2,...,N$ ,学习率 $\eta$

输出：a,b；感知机模型为 $f(x) = sign(\sum_{j=1}^{N} \alpha_j y_jx_j \cdot x +b)$ ,其中 $\alpha=(\alpha_1,\alpha_2,...,\alpha_N)^T$

(1) $\alpha \leftarrow 0, b\leftarrow 0$

(2)在训练集中选取数据 $(x_i,y_i)$

(3)如果 $y_i(\sum_{j=1}^{N} \alpha_jy_jx_j \cdot x_i +b) \leq 0$

$\alpha_i \leftarrow \alpha_i + \eta, b\leftarrow b+\eta y_i$

(4)转至（2）中，直到没有误分类数据。

Gram矩阵G= $[x_i\cdot x_j] _{N \times N}$

讲解至此，我们知道感知机是解决训练数据集线性可分的问题，那对于非线性可分的问题怎么解决？下节将继续介绍。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。