目录

线性代数中退化矩阵

        矩阵退化:

        模型退化:

矩阵的退化?什么是线性相关?

模型的退化(不太严谨的类比神经网络的模型退化)

模型退化的缓解


线性代数中退化矩阵

        矩阵退化:

                研究的是向量组中的向量

        模型退化:

                研究的是神经元节点

         

首先,退化矩阵 也叫 奇异矩阵。行列式为0,非满秩,也就是说矩阵内存在线性相关的向量组。

矩阵的退化?什么是线性相关?

 

 --非零常量个数等于1时,对应向量肯定是零向量

--个数大于1时候,说明至少有两个向量线性相关

(零向量和任意向量线性相关)

退化程度越高,线性相关的向量组越多

不太严谨的类比神经网络的模型退化

模型的退化(不太严谨的类比神经网络的模型退化)

权重线性相关,提取到的特征无效。

线性相关性增加,提取到的特征有很多是重复的。本来神经网络为了应对复杂的任务而准备了庞大的参数量,但是矩阵退化导致很多参数形同虚设,难以获得更丰富的特征。模型的表达能力就会随之下降,导致训练的损失也难以下降。

        以身份认证任务为例子,可供参考的特征有五官、头发、服饰等。理想的情况是神经元分工合作提取不同特征。通过整体的特征来提高模型的表达能力。因为 模型的退化 ,可能所有的神经元都在盯着一个特征,导致效率低下。虽然也能达到目的,但总没有综合特征来得准确。

论文:

论文提出了模型的三种奇异性:权重=0,权重相等,权重之间线性相关。

矩阵的退化:有零向量组,有相等向量组,都意味着存在线性相关的向量组。

模型退化的缓解

Dropout技术,参数初始化方法,跳跃连接

补充一点:我们常用的ReLU激活函数可能造成神经元坏死(永远无法得到激活的情况),而LeakyReLU左半平面也有梯度所以可以避免这个问题。

参考:【不想读paper】深度神经网络的退化问题 | 一篇总结_哔哩哔哩_bilibili

非常感谢小姐姐的分享!!!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐