深度学习的输入数据集为什么要做均值化和标准化处理 深度学习的输入数据集为什么要做均值化和标准化处理 深度学习的输入数据集为什么要做均值化和标准化处理

可以达到防止某一维或某几维对数据影响过大,同时有抗异常值的能力,比较稳定,适合嘈杂的数据场景


首先可以做归一化,可以防止某一维或某几维对数据影响过大

rgb三通道里,比如r通道里,某个像素值a在0-10之间变动,而另一个像素值b在10-255之间变动,那b像素造成的影响会掩盖像素a的影像,归一化就缓解了这种现象

归一化后,模型也会容易受到最大值和最小值的影响,因此如果数据集中存在一些异常点,结果将发生很大的改变,因此这种方法鲁棒性(稳定性)比较差,只适合数据量比较精确,比较小的情况。从而需要进行标准化。


X= (x-μ)/σ

常用的方法是z-score标准化,经过处理后的数据均值为0,标准差为1,满足标准正太分布

其中μ是样本的均值,σ是样本的标准差,它们可以通过现有的样本进行估计,在已有的样本足够多的情况下比较稳定,适合嘈杂的数据场景。


为什么要标准化

因为这样有抗异常值的能力,比较稳定,适合嘈杂的数据场景

归一化,可以防止某一维或某几维对数据影响过大

归一化+标准化就是常规的数据集处理操作,可以达到防止某一维或某几维对数据影响过大,同时有抗异常值的能力,比较稳定,适合嘈杂的数据场景

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐