1. 梯度下降法 GD

在这里插入图片描述


 

2. 随机梯度下降法 SGD

在这里插入图片描述

  • SGD和之前的GD区别在于,GD是对函数进行求导,对整个训练集每个样本来计算,但是SGD则是对一个或者多个样本来操作,例如有10000个样本,但每次只对100个或1000个来计算梯度,从而更新参数;
  • SGD存在一个弊端:因为求得的梯度不是严格的梯度,可能会使得结果变差,但在工程应用里效果却很好。

参考:机器学习入门(8):梯度下降法

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐