如图,对于val_loss和train_loss在训练初期出现上升,而后逐渐下降的情况是正常现象

其原因是:带momentum的方法训练,可看作在参数值和momentum组成的二元组上,每步乘一个矩阵,然后加一个噪音。不发散,要求这个矩阵的特征值范数小于1.但是,可能有复特征值和复特征向量。一个单位实向量分解为两个复特征向量的线性组合,系数可能是大于1的。所以,虽然系数在衰减,但复的部分可能被变换到实的部分来,就出现初期loss上升的情况,直到模最大的系数被衰减到1以下。综上,初期loss上升,不一定发散,是正常的。在不带momentum的情况下,一般不应该出现这种情况。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐