特征归一化

特征归一化常见的有两种,一种是线性函数归一化,一种是零均值归一化。

  1. 线性函数归一化(Min-Max Scaling)
    对原始数据进行线性变换,将结果映射到【0,1】的范围,归一化公式如下:
    Xnorm=X−XminXmax−Xmin, X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}} , Xnorm=XmaxXminXXmin
    其中 X 为原始数据, XmaxX_{max}XmaxXminX_{min}Xmin 分别为数据最大值和最小值。
  2. 零均值归一化(zero-score Normalization)
    它会将原始数据映射到均值为0、标准差为1的分布上。
    归一化公式定义为:
    z=x−μσ z = \frac{x-\mu}{\sigma} z=σxμ
    归一化的目的: 更快的通过梯度下降找到最优解。 btw, 特征归一化对于决策树模型并不适用,详细的还不了解。

图像数据不足时的处理方法

  数据不足面的问题主要表现在拟合方面,就是说我们在训练集上面的效果可能还不错,但是在测试集上的泛化能力很差。解决方法可以分为两类。

  1. 基于模型的方法:简化模型(非线性变成线性),添加约束项以减小假设空间(L1/L2正则项),Dropout超参数等;
  2. 数据扩充:随机旋转,平移,裁剪,缩放,添加颜色扰动,比如椒盐噪声,高斯噪声。

MSE评估

MSEloss=∑i=1n(yi−yi^)2n MSE_{loss} = \sqrt{\frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{n}} MSEloss=ni=1n(yiyi^)2
  这是一个用来评测回归模型的常用指标。数值越大,说明效果越差,数值越小,说明效果越好。
  一个问题就是离群点对该评价指标的影响很大,

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐