参考博客

深入理解L1、L2正则化
PyTorch 实现L2正则化以及Dropout的操作

正则化介绍

正则化(Regularization)是机器学习中一种常用的技术,其主要目的是控制模型复杂度,减小过拟合。最基本的正则化方法是在原目标(代价)函数 中添加惩罚项,对复杂度高的模型进行“惩罚”。其数学表达形式为:
J ˇ ( w ; X , y ) = J ( w ; X , y ) + α Ω ( w ) \check{J}(w; X, y)=J(w; X, y) + \alpha\Omega(w) Jˇ(w;X,y)=J(w;X,y)+αΩ(w)
式中 X , y X, y X,y为训练样本和相应标签, w w w为权重系数向量; J ( ) J() J()为目标函数, Ω ( w ) \Omega(w) Ω(w)即为惩罚项, 可理解为模型"规模"的某种度量; 参数 α \alpha α控制正则化的强弱. 不同的 Ω \Omega Ω函数对权重w的最优解有不同的偏好, 因而会产生不同的正则化效果. 最常用的 Ω \Omega Ω函数有两种, 即 l 1 l_1 l1范数与 l 2 l_2 l2范数, 相应称之为 l 1 l_1 l1正则化和 l 2 l_2 l2正则化.此时有:
l 1 : Ω ( w ) = ∣ ∣ w ∣ ∣ 1 = ∑ i ∣ w i ∣ l_1: \Omega(w)=||w||_1=\sum_i|w_i| l1:Ω(w)=∣∣w1=iwi
l 2 : Ω ( w ) = ∣ ∣ w ∣ ∣ 2 = ∑ i w i 2 l_2: \Omega(w)=||w||_2=\sqrt{\sum_iw_i^2} l2:Ω(w)=∣∣w2=iwi2

正则化的实现

在Pytorch中正则化的实现只需要一行代码, 如下:

optimizer = torch.optim.SGD(model.parameters(), \
lr=config.learning_rate, momentum=0.9, weight_decay=0.000001)

在这个函数调用中 w e i g h t _ d e c a y = 0.001 weight\_decay=0.001 weight_decay=0.001就是L2范数.

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐