在深度学习领域里,我们接触的第一个基础模型就是全连接神经网络,它具有层层传递的网状结构,通过一步步精密的传递运算来得到一个综合性的结果,下面我们来介绍一下全连接神经网络的构成与相关的函数用法。

前言

        在正式开始之前,我们先要明确一个概念:在众多深度学习的内容当中,我们要把我们所要得的结果看作一个高维空间里的向量,在大模型的语义检索环境里,构建词义之间的关系常常是通过向量的偏移来完成的,例如说:对于“男人”和“女人”的语义相关度,我们得到的向量偏移到哪“皇帝”和“皇后”这两个词之间,我们可以发现他们竟然惊人的相似,这也启发了我们:在某种层面上,我们可以通过分类和复用这些向量,来达到大大节省算力并训练模型这一目的。同时,这也侧面表明了一点:向量在高维空间里面存在的的时候,我们进行运算的载体必然是矩阵,同时,我们必须认识到,这些向量在高维空间里面也就说明了他们对应了多元未知数的方程,我们要做的就是在这个高维空间里面构建一个人类思维与语义体系,并且让其函数图像尽量吻合它在我们生活中的地位。那么,我们可以总结一个简单的概念:通常的,我们可以把这些向量看作由一个个基础函数拼接而成的高级高次函数,本质上是用概率论知识来做一个曲线拟合,只是说我们常用的元变成了矩阵来处理而已。

(PS:在计算机的存储中,图片的信息也是拟合为数字标注的深浅不一程度的颜色组成的矩阵:代表性的有单通道的灰度【只有一层】,和三通道的RGB【通过深浅不一的红黄蓝三原色来模拟电脑各种图案】)

全连接神经网络原理

        好啦,在介绍完这些基础概念后,我们来正式讲解全连接网络的构建:

        如图所示,这是一个经典的全连接神经网络图,左侧输入端(五个神经元的上一层)是输入层,右侧五个神经元的下一步是输出层,而中间的六层神经网络则是隐藏层。我们常常把图片抽象化为矩阵来放入输入层,通过隐藏层的层层逻辑运算,输出一个预测的结果。

        正如前言介绍概念所以说,神经网络是由不同权重的简单函数求和一层层累加而来的结果,每一个神经元都是代表一个特殊的和为1的权重部分,同时,在训练的时候,难免会产生宏观层面上的偏移来使结果偏离我们的预测值,这个时候,我们就需要一个偏置来帮助我们将结果拉回正轨:

        在预测结果求和之后,我们可以看到,在神经网络中我们又引入了“激活函数“这一全新概念:这是因为,正如我们所讲,神经网络类似链式结构,层层相扣如网一般,这样代表着我们需要严密且大量的计算才能让多个简单的线性函数达到一个稳定的且符合预测的值,而随着神经网络层数堆砌的深入,会出现过拟合的现象,导致我们的结果还没有训练到可控误差范围内,而高维向量已经经过极点向其他方向发生偏移,所以我们需要加入一个合适的“激活函数”(非线性)帮助我们缩小训练层数,更快更好的输出结果。下面,我将介绍几种主流的激活函数:

激活函数

Sigmod函数:

        

        Sigmod函数是最基础的激活函数,但是由于其导数峰值小,仅存在一个象限中,同时这导致的增速慢训练量大的问题同时也体现了优化调整费时费力的缺陷。同时在反向传播的时候求导,平缓的波形部分会更加平缓,多次反向传播后变化率近似于0.

Tanh函数

        Tanh函数相比于Sigmod函数峰值更高而且对称分布,可以有效显示更大范围的数据,同时导数图峰值跟高,更易训练。

    ReLU函数

        ReLU函数变化率在一定范围内是一个定值,故不存在梯度消失的风险。但是一旦离开这个范围,变化率趋于0,若出现训练偏移,易造成神经元死亡

Leaky ReLU函数

        Leaky ReLU函数通过运用不同变化率去除了神经元死亡的风险,但是同时也带来了正负输出值难以区别辨认的问题。

        除此之外,还有许多种类的“激活函数”,每种函数都有其特殊的优缺点,我们应该因地制宜的去灵活使用他们。

前向传播

        

        在神经网络中一层层计算并向前传递求值的过程叫做前向传播。在其中我们可以每层用不同的合适的激活函数来拟合。

损失函数

        损失函数更像是一种概率论的概念,求得一个相对准确的拟合位置。在这里要特别强调一点:公式开头除以的2是为了后驱反向传播求导更加简单完成设立的,其本质上模拟状态,是统计学知识。

梯度下降法

    

如故事所言,梯度下降法就是找一条最快的还原“来时路”的一条求导路径。

        这个公式在w(权重)和b(偏置)上都有运用,a是学习率(最优步长)。

通过反向传播,输出值比第一次更加接近理想值/真实值。

以上就是第一章全连接神经网络的基本概况,欢迎交流!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐