我用夸克网盘分享了「boston.csv」,链接:https://pan.quark.cn/s/f2d9f5a2a5ff
在这里插入图片描述

其中数据从左至右1~14依次表示为:CRIM、ZN、INDUS、CHAS、NOX、RM、AGE、DIS、RAD、TAX、PTRATIO、B、LSTAT和MEDV,共计14项,每个因素的具体含义为:

CRIM: 城镇人均犯罪率
ZN: 住宅用地所占比例
INDUS: 城镇中非住宅用地所占比例
CHAS: CHAS 虚拟变量,用于回归分析
NOX: 环保指数
RM: 每栋住宅的房间数
AGE: 1940 年以前建成的自住单位的比例
DIS: 距离 5 个波士顿的就业中心的加权距离。
RAD: 距离高速公路的便利指数
TAX: 每一万美元的不动产税率
PRTATIO: 城镇中的教师学生比例
B: 城镇中的黑人比例
LSTAT: 地区中有多少房东属于低收入人群
MEDV: 自住房屋房价中位数(也就是均价)

波士顿房价数据集是机器学习领域用于房价预测分析的经典数据集,为研究、教学等提供了有价值的资源。以下从多个方面对其进行介绍:

  1. 数据集概况:该数据集收集于20世纪70年代中期,源自美国人口普查局关于马萨诸塞州波士顿住房的信息,反映了当时波士顿郊区房屋价格的影响因素。它包含506个数据点,通常分为404个训练样本和102个测试样本 。
  2. 数据特征
    • 特征数量及类型:有13个特征和1个目标变量(房屋中位数价格MEDV)。特征多样,涵盖数值、比例等不同类型。
    • 部分关键特征说明
      • CRIM:城镇人均犯罪率,体现地区安全性,犯罪率高可能拉低房价。
      • ZN:住宅用地中规划为超过25,000平方英尺地块的比例,比例高意味着大面积住宅用地多,可能提升房价。
      • INDUS:每个城镇非零售业务用地的比例,反映地区商业活跃度,比例过高可能因噪音等影响房价。
      • RM:住宅平均房间数,房间数多通常能满足更多居住需求,与房价正相关。
      • LSTAT:人口中低地位人群的百分比,该值高可能反映地区经济水平较低,房价也会受到影响。
  3. 数据特点
    • 真实性:源于真实的波士顿房地产市场,反映实际经济和社会现象,能为研究提供可靠依据。
    • 多样性:特征涵盖地理、经济、社会等多个方面,为数据分析提供丰富维度。
    • 规模适中:数据量便于快速迭代和测试模型,又具备一定复杂性,可展示真实问题。
    • 可用性:适用于多种机器学习框架和工具,如scikit-learn、TensorFlow和PyTorch等,方便研究和应用。
  4. 数据预处理与分析
    • 预处理:数据预处理和特征工程是关键步骤,如特征标准化或归一化,可减少某些特征对模型结果的影响,提升模型性能。
    • 分析方法:常用回归模型处理该数据集,如线性回归、决策树回归和随机森林回归等。评估指标有均方误差(MSE)、均方根误差(RMSE)和决定系数(R²)等,用于衡量模型预测的准确性和拟合优度。
  5. 应用场景
    • 学术研究:研究人员利用其进行回归分析研究,探索不同模型对房价预测的影响,推动学术发展。
    • 教育训练:是教学机器学习算法的经典案例,帮助学生理解数据处理、模型训练和评估过程。
    • 商业决策:房地产分析师和投资者借助它分析影响房价的关键因素,为投资决策提供数据支持 。
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐