2020年中国大陆100m分辨率人口密度及年龄分层人口估算网格化数据集
摘要:本研究基于2020年中国乡镇级人口普查数据,构建了100米分辨率网格化人口数据集ASPECT,包含总人口及四个年龄组分布。通过整合建成区、建筑高度等多源空间数据,采用随机森林回归模型进行人口密度预测,显著优于基于县级数据的WorldPop等现有数据集(R²提升0.12-0.42)。核心创新在于独立映射各年龄组人口,能更精准捕捉年龄结构空间差异(变异系数达WorldPop的2-30倍),为精细
中国大陆范围100m分辨率人口密度及年龄分层人口估算栅格数据集(shp/csv)

-
高分辨率人口网格数据对于精细尺度上理解人地互动至关重要(如环境健康、灾害管理)。
-
现有中国人口网格数据集(如WorldPop)常基于县级人口普查数据降尺度生成,存在数据过时和空间分辨率不足的问题。
-
2020年中国人口普查提供了宝贵的乡镇级数据(共40,718个乡镇),这是公开可用的最精细单元,包含总人口及年龄结构信息(0-14, 15-59, 60-64, ≥65岁)。
-
使用乡镇级数据能比县级数据更准确地反映人口空间分布,尤其是年龄结构的空间差异。
数据介绍
数据资源:2020年中国大陆100m分辨率人口密度及年龄分层人口估算网格化数据集
1 数据与方法
目标:构建100米空间分辨率的中国内地网格化人口数据集ASPECT,包含总人口及四个年龄组人口。
核心数据:
人口数据:基于2020年中国人口普查乡镇级数据(总人口、0-14岁、15-59岁、≥60岁、≥65岁人口)。
空间数据:手工更新乡镇边界至2020年状态,解决2019年公开边界与2020年普查数据之间的不匹配问题(涉及768个乡镇的变更)。
预测变量:使用多个100米分辨率的协变量预测人口分布,包括:
-
建成区百分比(% built-up area)
-
建筑高度(Building height)
-
夜间灯光强度(Nighttime light intensity)
-
道路距离(Distance to road)
-
兴趣点密度(POI density)
-
地形(高程、坡度)(Topography)
-
水域(Water bodies)
方法:密度加权映射 (Dasymetric Mapping):
-
利用协变量定义“宜居区”掩膜(有建筑覆盖且非水域)。
-
在乡镇级别,使用随机森林回归模型分别建立总人口及各年龄组人口密度(基于宜居区面积)与协变量之间的关系。
-
模型在乡镇级数据进行训练和调参(网格搜索交叉验证)。
-
将训练好的模型应用于网格化的协变量,生成每个网格单元的人口权重。
-
使用该权重将乡镇级人口分配到每个100米网格单元内(仅限于宜居区)。


图1、数据制作流程
2. 技术验证:
模型拟合优度: 乡镇级随机森林模型拟合效果良好(R²: 0.75-0.83,总人口模型最高)。建筑高度是最重要的预测变量,其重要性和协变量影响程度在不同年龄组间存在差异。


一致性检验: 网格单元的总人口估算值 (population_total_pop) 与各年龄组人口之和 (population_total_pop_sum) 高度相关(平均相关系数0.96),平均RMSE为5.47人/公顷。population_total_pop_sum 被用作计算年龄组占比的分母。
县级映射验证: 使用县级数据重复相同映射流程作为验证基准(假设乡镇级数据应更优)。结果显示,基于县级数据的乡镇级人口汇总值与实际值相比,存在一定低估,且在人口密集区更明显(R²: 0.61-0.84)。这为基于乡镇级数据的ASPECT提供了准确性下限的支持。

与现有数据集比较:
WorldPop (2000-2020): 基于2010年乡镇总人口和2010年县级年龄结构数据,并使用市级增长率推算至2020年。其2020年乡镇级人口汇总值与实际普查值吻合度较低(R²: 0.41-0.63),存在较大误差和不准确性。
WorldPop (2015-2030 R2024B V1): 更新版纳入了2020年县级普查数据。其准确性显著提高(R²: 0.56-0.86),与ASPECT县级验证基准相当。但因使用较粗的县级数据(而非乡镇级)进行降尺度,其空间精度理论上应低于使用乡镇级数据的ASPECT。

PopSE (Chen et al.): 使用了混合的乡镇级和县级2020年普查样本来估计网格总人口。ASPECT 的优势在于:1) 使用了全部40,718个乡镇的数据,理论上能更好地捕捉乡镇间差异;2) 额外提供了年龄分组的网格化人口估计。
核心优势 - 年龄结构空间变异: ASPECT 的关键优势在于其捕捉人口年龄结构空间变异的能力远优于两个版本的 WorldPop。原因在于 ASPECT 对每个年龄组进行独立的密度加权映射,而 WorldPop 似乎是先将总人口降尺度,再将县级年龄结构比例应用到网格单元上,导致同一县内网格的年龄结构比例变异极小。

表4数据佐证: 在各级空间尺度(省、市、县、乡镇)上,ASPECT 估算的年龄组占比的标准差(衡量变异)均远高于 WorldPop(通常是2到30倍)。WorldPop的变异随空间尺度增大而增大,但即使是在省级尺度,其变异也远小于ASPECT在乡镇尺度的变异。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)