中国全境的县级尺度城市洪水数据集(2000-2022)

图片

针对中国城市洪水威胁加剧但现有数据集(如《中国水旱灾害公报》)仅提供省级尺度、缺乏时空连续性的问题,本研究构建了首个覆盖中国全境的县级尺度城市洪水数据集(2000-2022),通过机器学习技术从新闻文本中提取洪水事件信息。

数据介绍

数据资源:中国全境的​​县级尺度城市洪水数据集(2000-2022)

图片

图2、洪水信息收集和提取的方法框架

数据来源

新闻数据库:CNKI(学术性新闻)和WiseNews(全面新闻),使用关键词组合(如“洪水+城市/县”)检索2000-2022年新闻。

过滤无效内容(如预警信息、重复报道),保留实际洪水事件报道。

对比数据:官方《中国水旱灾害公报》的城市级洪水统计(2006-2018)。

机器学习框架

BERT模型:微调中文阅读理解模型(基于CMRC2018数据集),通过三组问答提取信息:

灾害类型(确认是否洪水事件)

发生时间(精确到日)

影响地点(县级区域)

BiLSTM-CRF模型:从BERT输出中识别标准化县级地名,结合最新行政区划调整更新。

性能评估:F1分数0.86(地点识别),精确匹配率(EM)0.82,洪水事件识别F1达0.98。

数据处理流程
新闻文本→ 清洗分割 → BERT问答 → 事件确认 → 时空信息提取 → 地名标准化 → 空间可视化(ArcGIS)。

数据信息

本数据集为2000至2022年中国城市洪涝事件编目数据库,数据集内不包含洪水频率的空间分布shp数据,有需要的同学可以自己做。数据源自中国新闻文本,采用BERT模型提取洪涝事件的时间和空间信息。时间尺度精确至日级,无法提取具体日期的条目仅标注月份。空间尺度为中国县级行政区划。

年度洪涝事件数据按年份存储为CSV文件(文件名即对应年份),包含以下字段:

  • Year:事件发生年份

  • PAC:事件发生县级行政区的行政区划代码

  • Province:受影响省级行政区

  • City:受影响地级市

  • County:事件发生县级行政区

  • Occurrence:该区域当年洪涝发生频次

  • Time:该区域每次洪涝事件的具体日期

shapefile.zip压缩包包含".shp"、".shx"、".dbf"等文件,是作者用于数据可视化的中国行政区划矢量数据(县级)。

数据如下:

图片

以2000为例打开可以获取2000年的洪水信息

图片

数据格式:CSV(压缩包内含数据来源、引用方法)

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐