概述

这些数据集大多以CSV格式存储,每一行代表一个时间戳,每一列代表一个变量(特征)。核心任务通常是多变量时间序列预测,即利用过去多个变量(如温度、湿度、压力)的历史数据,来预测未来一个或多个目标变量(如油温、电力负荷)的值。


1.ETT数据集(Electricity Transformer Temperature)

简介:ETT数据集是中国某电力变压器上的关键数据记录,主要用于油温预测,这是电力系统健康监测的重要指标。

两个小时级数据集(ETTh)两个 15 分钟级数据集(ETTm)组成。它们中的每一个都包含 2016 年 7 月至 2018 年 7 月的七种石油和电力变压器的负载特征。

      

  • 数据特点:

  1. 多变量相关性:前6个负载特征与目标油温(OT)存在复杂的非线性关系,是测试模型能否捕捉变量间依赖关系的良好数据。

  2. 明显的时间模式:数据包含日周期性、周周期性(工作日/周末模式)以及年周期性(季节变化)。

  3. 不同采样频率:提供了小时级(H)和分钟级(M)两种数据,可用于研究不同时间粒度对预测效果的影响。

  4. 现实工业数据:包含噪声和不确定性,非常贴近实际应用场景。

典型任务:给定过去若干小时的 [HUFL, HULL, ..., LULL, OT] 数据,预测未来若干小时的 OT(油温)值。

2.exchange_rate

简介:收集了1990年至2016年8个不同国家/地区(澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰、新加坡)相对于美元的每日汇率

典型任务:多变量多步预测。给定过去N天的8国汇率,预测未来M天的8国汇率。

3. PEMS (Performance Measurement System)

简介:来自加州交通局绩效测量系统(PeMS),收集了旧金山湾区高速公路网络上大量传感器的实时交通数据。

典型任务时空图预测。给定历史T时间步的图信号(每个传感器的流量),预测未来T’时间步的图信号。这是图神经网络(GNN)和时序模型(如TCN, Transformer)结合的重点应用领域。

4. electricity

简介:记录了2012年至2014年321名客户的每小时电力消耗(以kWh为单位)。

5. solar-energy (National Solar Radiation Database)

简介:美国国家可再生能源实验室(NREL)提供的太阳能发电数据,包含了2006年137个光伏电站的每小时太阳能发电量输出。

6. traffic (California Department of Transportation)
简介:与PEMS类似,也是来自加州交通局的数据,记录了2015年至2016年旧金山湾區862个车道传感器每小时的道路占用率(occupancy rate,取值范围[0,1])。

7. weather

简介:记录了2020年德国21个气象站每10分钟一次的各种天气测量数据

典型任务:多变量多步预测。给定过去N个时间步的所有天气变量,预测未来M个时间步的所有或部分天气变量(如未来12小时的温度和湿度)。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐