L1 正则化的公式如下:

Loss=MSE+𝜆∑𝑗=1𝑝∣𝑤𝑗∣Loss=MSE+λj=1∑p​∣wj​∣损失=MSE+λ

其中:

  • LossLoss 是损失函数,通常是均方误差(Mean Squared Error,MSE)。
  • 𝑝p 是特征的数量。
  • 𝑤𝑗wj​ 是第 𝑗j 个特征的权重。
  • 𝜆λ 是正则化参数,控制正则化的强度。

L1 正则化的主要特点是在损失函数中加入了权重的 L1 范数作为惩罚项。这个惩罚项的作用是使得模型在拟合数据的同时尽量保持权重的稀疏性,即让某些权重趋向于零。

为了理解为什么会有很多稀疏解,我们来看一下 L1 正则化的优化目标。我们可以将 L1 正则化的损失函数写成优化问题的形式:

minimizeMSE+𝜆∑𝑗=1𝑝∣𝑤𝑗∣minimizeMSE+λj=1∑p​∣wj​∣

优化的目标是最小化损失函数,同时尽量减小权重的绝对值之和。由于绝对值函数 ∣𝑤𝑗∣∣wj​∣ 在零点处不可微,因此在求解过程中会出现许多局部最小值点。这导致了在权重空间中存在许多解,其中许多解具有稀疏性,即许多特征的权重被压缩至零。

换句话说,L1 正则化的优化目标是在最小化损失函数的同时尽量减小权重的绝对值之和,这会导致在权重空间中存在多个稀疏解,其中许多解对应着某些特征的权重被压缩至零。这就是为什么会有很多稀疏解的原因。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐