统计学习方法都是由模型、策略和算法构成的,统计学习三要素:

方法 = 模型 + 策略 + 算法

构建一种统计学习方法就是确定具体的统计学习三要素。

什么是模型?

统计学习首要考虑的问题是学习什么样的模型,在监督学习中,模型就是所要学习的条件概率分布或决策函数。

什么是决策?

决策就是考虑按照什么样的准则学习或选择最优的模型。

  • 损失函数:度量模型一次预测的好坏;
  • 风险函数:度量平均意义下模型预测的好坏。

常见损失函数:

  • 0-1损失函数:

L(Y,f(X))= \begin{equation} \left\{              \begin{array}{lr}              1, & Y \neq f(X)  \\              0, & Y = f(X)&                \end{array} \right. \end{equation}
  • 平方损失函数:

L(Y,f(X)) = (Y - f(X))^2
  • 绝对损失函数:

L(Y,f(X)) = \left| Y - f(X) \right|
  • 对数损失函数(对数似然损失函数):

L(Y,P(Y|X)) = -log(P(Y|X))

损失函数越小,本次模型就越好。

风险函数是损失函数的期望,风险函数最小就是最优模型:

exp 是期望的意思(expected)。

R_{exp} (f) = E_{P}[L(Y,f(X))] = \int_{\chi,\gamma}^{}L(y,f(x))P(x,y)dxdy

由于联合分布

P(X,Y) 是未知的,所以风险函数
R_{exp} (f) 不能直接计算,靠学习啦。
  • 期望风险(风险函数)是模型关于联合分布的期望损失;
  • 经验风险是模型关于训练样本集的平均损失。

假定一个训练数据集:

T = \{ (x_{1},y_{1}),(x_{2},y_{2}),...(x_{N},y_{N})\}

模型

f(X) 关于训练数据集的平均损失称为经验风险(empirical),记做
R_{emp}

R_{emp} = \dfrac{1}{N}\sum_{i=1}^{N}{L(y_{i},f(x_{i}))}
根据大数定律,当样本容量
N 趋于无穷大时候,经验风险将无限接近期望风险。

什么是统计学习算法?

算法是指学习模型的具体计算方法,统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑根据什么样的计算方法求解最优模型。

这时,统计学习问题归结为最优化问题,统计学习的算法称为求解最优化问题的算法。一般来说,解析解都是不存在的,我们一般用数值计算的防范求解。如何保证找到全局最优解,并使求解的过程非常高效,这是一个重要的问题。


参考文献:《统计学习方法》

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐