本博文源于《商务统计》,旨在讲述如何确定回归分析中的拟合优度。当我们用编程软件整出回归分析曲线的时候,怎样合理解释我们拟合优度的好坏呢?在数学中我们用可决系数进行判别。

问题起源

假设是一条一元线性回归的直线。总所周知,如果直线跟实际点很近,那么我们想当然认为这是一个好的回归直线。我们也知道有一种系数叫做残差系数,描述的是实际值跟预测值之差。我们还知道这种方法基于最小二乘法。那么在拟合出一条回归直线中,如何计算才能确定拟合的好坏呢?只考虑残差吗?
在这里插入图片描述

问题分析

无数的数学家已经在此投入大量的精力,我们只需站在前人的肩膀上即可。
在这里插入图片描述
上面一种图的一条水平线非常重要!叫做yˉ\bar{y}yˉ也就是所有样本实际y值得平均值。我们构造了这个水平线就是衡量拟合优度的第一步。大家也可以从图中看出样本的实际值到yˉ\bar{y}yˉ由两部分值组成即y−y^与y^−yˉy-\hat{y}与\hat{y}-\bar{y}yy^y^yˉ这两部分组合而成。如果每一个样本都考虑进去,就会产生这样一个式子:

∑i=1n(yi−yˉ)2=∑i=1n(yi−yi^+yi^−yˉ)2 \sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^n(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2 i=1n(yiyˉ)2=i=1n(yiyi^+yi^yˉ)2
这部分化简出来就很神奇了。就是平方和化简。第三项数学可证明出为0,这里略去,化简得
∑i=1n(yi−yˉ)2=∑i=1n(yi−yi^)2+∑i=1n(yi^−yˉ)2 \sum_{i=1}^n(y_i-\bar{y})^2=\sum_{i=1}^n(y_i-\hat{y_i})^2+\sum_{i=1}^n({\hat{y_i}-\bar{y}})^2 i=1n(yiyˉ)2=i=1n(yiyi^)2+i=1n(yi^yˉ)2
大家可以从第一项中
∑i=1n(yi−yi^)2 \sum_{i=1}^n(y_i-\hat{y_i})^2 i=1n(yiyi^)2
这部分看出,它其实就是残差,那么把它控制住最小,就能使得拟合优度达到最好。

可决系数引出

R2=∑i=1n(y^i−yˉ)2∑i=1n(yi−yˉ)2=1−∑i=1n(yi−y^)2∑i=1n(y^i−yˉ)2 R^2=\frac{\sum_{i=1}^n(\hat{y}_i-\bar{y})^2}{\sum_{i=1}^n(y_i-\bar{y})^2}=1-\frac{\sum_{i=1}^n(y_i-\hat{y})^2}{\sum_{i=1}^n(\hat{y}_i-\bar{y})^2} R2=i=1n(yiyˉ)2i=1n(y^iyˉ)2=1i=1n(y^iyˉ)2i=1n(yiy^)2
可决系数反应直线的拟合程度,取值范围在[0,1]之间.R2→1R^2\rightarrow1R21说明回归方程拟合的越好R2→0R^2\rightarrow0R20就代表回归方程拟合的很差越差.

可决系数R2R^2R2与相关系数r2r^2r2的关系

相关系数是x与y之间的关系的描述指标,只能描述强弱关系,比如正相关或者负相关。
可决系数是含有因果关系在里面,可能是x的变化随着y的变化而变化。

总结

在统计学上面,利用回归分析我们可以拟合出直线或者曲线判定两个变量之间存在什么关系。拟合的好坏我们就可以用可决系数去判定,这样使得回归分析达到有理有据。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐