995bbd94e7e33206421b901d061de9c9.png60c8ad8304f8803bc6df7e85d3a558c1.png加权回归分析

在线性回归模型中,有一个同方差性假设,就是要求所有观测对回归模型的变异具有相同的贡献,以此为基础的回归方法称之为普通最小二乘法(OLS)。当因某些观测的变异较其他观测大而导致样本的方差不等时,就不能使用OLS方法了。如果观测的变异是可以通过其他变量进行预测,就可以使用加权最小二乘法(WLS)来拟合线性回归模型。WLS实际上是在回归中按观测量方差的倒数对观测进行加权,这样就会降低具有较大方差的观测记录对计算过程的影响。

例如在研究通货膨胀和失业率对股票价格的影响时,考虑到高市值的股票较低市值的具有更高的变异性(价格波动大),使用OLS法便不能很好地反应制定因素对变异性较大的股票的影响,这个时候就需要使用WLS方法来解决这个问题。

一、加权回归分析简介(1)加权回归对数据的要求和假设包括:
  • 自变量和因变量应该是数值型变量,类似于宗教、民族和地区这样的分类变量应该重新编码成二分类变量或其他的对照(contrast)变量;

  • 加权变量必须是与因变量有关的数值型变量;

  • 对于自变量的每个取值,对应因变量的取值分布必须是正态的;

  • 因变量和每一个自变量的相关关系应该是线性的;

  • 所有观测量之间相互独立;

  • 各观测的方差可以不同,但是这些差异可以通过加权变量进行预测;
(2)使用加权最小二乘法,主要过程分为方差诊断权重估计两个步骤。

1. 方差诊断

先利用OLS方法对原始数据建立简单线性模型,并绘制其残差对预测值的散点图,如果残差均匀分布在某条与横轴平行的横线附近说明样本的方差基本相等;反之,如果方差呈现明显的喇叭口形状或其他不规则形状,说明样本方差不相等,有必要进行WLS估计。

如果只有一个自变量,可以直接作因变量对自变量的散点图,观察因变量的分布是否均匀,判断方法与残差图相似。

2. 估计权重

如果认为因变量的方差与其他变量之间存在着相关关系,就可以使用WLS来估计权重,常用的估计方法有如下两种:

利用数据的复制集来估计权重。

要使用WLS估计回归模型,就需要先计算每一个观测的变异性。一种比较好的方法是将具有相同特点或近似特点的数据进行编组(数据的复制集),然后计算因变量在各编组中的方差,并以此方差的倒数作为相应编组中观测的权重。

利用变量估计权重。

利用方差与其他变量的相关关系估计权重,因变量的方差经常与自变量有关。例如:高市值的股票价格具有较大的方差,具有研究生学历的人员的工资方差要比那些没有获得学位人员的工资方差高出许多。

二、案例分析与操作某开发商计划利用历史数据预测新建一个商业街的成本,现准备利用加权回归来进行分析。数据为SPSS自带的Demo文件“mallcost.sav”,相关变量为如下图所示:87b8f6cb3dd220d25e874bd9e6b81b0b.png因变量为建筑成本,其他变量为自变量,权重变量为面积。其中商业街种类为分变量,取值为0时表示室内,取值为1时表示室外。1. 初步的残差分析在进行WLS分析之前,需要先利用OLS回归来对该问题的残差图进行分析,以此来判断是否有作WLS的必要。操作过程如下:①分析->回归->线性。建筑成本选入因变量框,其余所有变量均放入自变量框中,在保存选项中勾选预测值标准化残差标准化,点击继续和确定,得到线性回归结果。②图形->旧对话框->散点图:默认简单散点图,标准化预测值(StandardizedPredicted Value)选入x轴,标准化残差(StandardizedResidual)选入Y轴,单击确定,得到如下残差图:78105695f1773593d7f9b4e6e04596f2.png此处作图也可以直接在线性回归选项框中设置好相应的绘图结果。上图是用OLS回归得到的标准化残差对标准化预测值的散点图。可见,随着预测值的增大,残差也有增大的趋势,故而可以否定OLS中关于同方差的假设,建议采用WLS方法对这个问题进行分析。2. 加权回归参数设置分析->回归->加权估算:如图设置好相应变量,权重指数的幂的范围从0到5,步长为0.5,在选项中将最佳权重保存为新变量,单击继续与确定。329994dc50b8a4cef21303a0c79d136b.png9505aa46172c9fa933a752a72ed490dd.png3. 加权回归结果分析   (1)对数似然值和模型摘要291cc0a38fef4a668cbd3310190cac77.png        4c03e2d3ccd91524dce32626e462fbaa.png        “对数似然函数值”表中,给出了指定步长内的所有对数似然值,使得这个对数似然值达到最大的指数就是最佳指数,表中右上角的小a标志就是最优值。“模型描述”表格中,给出了加权估计模型的概要信息,包括因变量、自变量权重变量和最优权重。“模型摘要” 表格给出采用最佳指数建立的加权回归模型的拟合优度检验结果,可见,R方和调整R方都很大,说明权重指数为3.5时的加权回归模型拟合效果不错。(2)方差分析表18af6e4553f7d3a8628ce307e7abe9f8.png“方差分析表”是权重为3.5时所建立的加权回归模型的ANOVA表,从F统计量的显著性看远小于0.05,因此由加权回归模型所解释的变异系数远大于由残差所解释的变异系数,回归效果很好。(3)参数估计结果4b06342ae36b561089d34366576792a8.png

由系数估计结果可看出,各个变量系数及常数项的t检验的Sig的值均小于显著性水平0.05,因此加权回归模型的系数显著有效,最后拟合得到的模型表达式为:

cost =53.438+149.273×sqft-26.533×inorout-2.209×yrexp
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐