百面机器学习一
特征归一化特征归一化常见的有两种,一种是线性函数归一化,一种是零均值归一化。线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,将结果映射到【0,1】的范围,归一化公式如下:Xnorm=X−XminXmax−Xmin, X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}}, Xnorm=Xmax−XminX−Xmin,其中 X 为原
·
特征归一化
特征归一化常见的有两种,一种是线性函数归一化,一种是零均值归一化。
- 线性函数归一化(Min-Max Scaling)
对原始数据进行线性变换,将结果映射到【0,1】的范围,归一化公式如下:
Xnorm=X−XminXmax−Xmin, X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}} , Xnorm=Xmax−XminX−Xmin,
其中 X 为原始数据, XmaxX_{max}Xmax 、 XminX_{min}Xmin 分别为数据最大值和最小值。 - 零均值归一化(zero-score Normalization)
它会将原始数据映射到均值为0、标准差为1的分布上。
归一化公式定义为:
z=x−μσ z = \frac{x-\mu}{\sigma} z=σx−μ
归一化的目的: 更快的通过梯度下降找到最优解。 btw, 特征归一化对于决策树模型并不适用,详细的还不了解。
图像数据不足时的处理方法
数据不足面的问题主要表现在拟合方面,就是说我们在训练集上面的效果可能还不错,但是在测试集上的泛化能力很差。解决方法可以分为两类。
- 基于模型的方法:简化模型(非线性变成线性),添加约束项以减小假设空间(L1/L2正则项),Dropout超参数等;
- 数据扩充:随机旋转,平移,裁剪,缩放,添加颜色扰动,比如椒盐噪声,高斯噪声。
MSE评估
MSEloss=∑i=1n(yi−yi^)2n MSE_{loss} = \sqrt{\frac{\sum_{i=1}^{n}(y_i - \hat{y_i})^2}{n}} MSEloss=n∑i=1n(yi−yi^)2
这是一个用来评测回归模型的常用指标。数值越大,说明效果越差,数值越小,说明效果越好。
一个问题就是离群点对该评价指标的影响很大,
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)