一文详解Stata回归分析

摘要：Stata是进行回归分析的强大工具，其核心命令regress支持OLS回归分析。分析流程包括：数据准备（加载、描述统计）、模型估计（简单/多元回归）、假设检验（异方差、多重共线性）和结果解读（系数、显著性）。高级功能涵盖虚拟变量、交互项、逻辑回归和面板模型。建议使用Do文件保证可重复性，通过outreg2输出专业表格。回归分析需结合理论解释结果，注意统计显著性与实际意义的区别。完整工作流程从

mz159_357

2329人浏览 · 2025-09-19 22:40:15

mz159_357 · 2025-09-19 22:40:15 发布

回归分析是计量经济学的核心，用于研究一个或多个自变量（解释变量）与因变量（被解释变量）之间的关系。Stata因其强大的统计功能和相对易用的语法，成为进行回归分析最流行的工具之一。

第一部分：基础知识与准备

Stata界面介绍：
- 命令窗口：直接输入命令执行。
- 结果窗口：显示命令执行后的输出结果。
- 变量窗口：显示当前数据集中所有变量的列表。
- 数据编辑器：以电子表格形式查看和编辑数据。
- Do文件编辑器：编写和保存脚本的最佳实践，确保分析的可重复性。

数据管理：
在进行回归前，必须确保数据已正确加载和处理。

stata

sysuse auto, clear    // 使用Stata自带的“auto”数据集（1978年汽车数据）
describe              // 查看数据结构和变量含义
summarize price mpg weight // 对关键变量进行描述性统计

第二部分：核心回归命令`regress`

regress是Stata中最基础、最常用的OLS（普通最小二乘法）回归命令，其基本语法为：

stata

regress depvar [indepvars] [if] [in] [, options]

depvar：因变量
indepvars：自变量（可以是一个或多个）
if/in：条件或范围限定
options：各种选项

示例1：简单线性回归
研究汽车价格（price）和油耗（mpg，每加仑英里数）的关系。

stata

regress price mpg

输出结果解读：
输出结果通常分为几个部分：

方差分析表：提供模型整体的拟合优度。
- Prob > F：模型显著性检验的P值。如果小于0.05，说明模型整体是显著的。
- R-squared：决定系数，表示自变量能解释因变量变异的比例。此例中为0.2196，说明mpg能解释21.96%的price变化。
回归系数表：这是解读的核心。
- Coef.：系数估计值。
  - mpg的系数为 -238.89。这意味着在保持其他因素不变的情况下，mpg每增加1个单位，汽车价格平均下降238.89美元。
- Std. Err.：系数的标准误，衡量估计值的准确性。
- t： t统计量，用于检验单个系数的显著性（H0: Coef. = 0）。
- P>|t|： P值。mpg的P值为0.000，远小于0.05，表明mpg对price有显著的负向影响。
- [95% Conf. Interval]：系数的95%置信区间。我们有95%的把握认为真实的系数落在这个区间内。

示例2：多元线性回归
现实世界中，一个结果通常由多个因素决定。我们加入汽车重量（weight）和车型（foreign）作为控制变量。

stata

regress price mpg weight foreign

结果解读：

在控制了weight和foreign后，mpg的系数变成了-49.51，其绝对值和显著性都大幅下降了。这表明在简单回归中，mpg的部分效应实际上是由weight和foreign带来的（例如，外国车可能更省油但也更贵）。
weight的系数显著为正，说明更重的车价格更高。
foreign的系数显著为正，说明外国车比国产车（基准组）平均贵3637.58美元。

第三部分：回归后诊断与检验

估计完模型后，检查模型是否满足OLS经典假设至关重要。

异方差检验：
异方差会使标准误估计不准确。最常用的检验是Breusch-Pagan检验。

stata
```
regress price mpg weight foreign // 先回归
estat hettest                    // 执行异方差检验
```
如果P值（Prob > chi2）小于0.05，则拒绝“同方差”的原假设，认为存在异方差问题。
解决办法：使用稳健标准误。

stata
```
regress price mpg weight foreign, robust
```
在绝大多数情况下，尤其是横截面数据中，都建议直接使用robust选项。
多重共线性检验：
多重共线性不会影响估计值的无偏性，但会增大方差，使得系数估计不稳定。

stata
```
estat vif    // 计算方差膨胀因子
```
通常，如果某个变量的VIF大于10，则认为存在严重的多重共线性。解决办法包括：剔除变量、合并变量或使用降维方法。

模型拟合图：
直观地查看预测值与实际值、残差的关系。

stata

predict yhat // 生成预测值
predict r, residuals // 生成残差
scatter price yhat   // 画实际值与预测值的散点图
scatter r yhat       // 画残差与预测值的散点图（应无规律）

第四部分：其他常用回归模型

Stata的强大之处在于它能处理各种复杂的模型。

虚拟变量回归：
分类变量（如性别、种族、地区）需要设置为虚拟变量后再放入模型。Stata的i.前缀可以自动完成。

stata
```
regress price mpg weight i.foreign // i.foreign 相当于自动生成了foreign=0和1的虚拟变量
```
交互项：
研究一个自变量的效应是否因另一个自变量的取值而异。使用#或##符号。

stata
```
regress price c.mpg##i.foreign // 研究mpg对price的影响是否在国产车和外国车中存在差异
```
c.mpg##i.foreign会自动生成mpg、foreign和它们的交互项mpg#foreign。

逻辑回归：
当因变量是二分类变量（如是/否，成功/失败）时使用。

stata

logistic foreign price weight // 研究价格和重量如何影响一辆车是外国车的概率
logit foreign price weight    // 输出的是系数形式
logistic                      // 输出的是优势比，更易解释

面板数据回归：
针对面板数据（同一对象在不同时间点的数据），使用xtset声明面板结构，然后使用xtreg。

stata

webuse nlswork, clear   // 加载Stata面板数据集
xtset idcode year       // 声明个体id和时间变量
xtreg ln_w grade age ttl_exp, fe // 固定效应模型
xtreg ln_w grade age ttl_exp, re // 随机效应模型

第五部分：完整工作流程与最佳实践

使用Do文件：永远在Do文件编辑器中编写代码，而不是在命令窗口，以保证分析过程可重复。
数据清洗：回归前使用summarize, tabulate, histogram等命令探索数据，处理缺失值和异常值。
模型设定：基于理论选择变量，并考虑可能的函数形式（如对价格取对数ln_price = log(price)）。
估计与检验：运行回归，并进行异方差、多重共线性等诊断。

结果输出：使用outreg2或esttab命令将多个回归结果输出到Word或Excel中，制作成美观的出版级表格。

stata

ssc install outreg2 // 首次使用需要安装
regress price mpg
est store model1
regress price mpg weight foreign, robust
est store model2
outreg2 [model1 model2] using myregression.doc, replace