由于国际环境原因,目前已有多个机构对中国等国家的机构不再通过申请,所以导致部分研究者们获取不到原始数据集。

为了方便科研人员进行跨中心对比、构建泛化能力强的模型,本篇文章对目前主流公开 PSG 数据集进行系统整理。

由于篇幅限制,本文只写部分数据集,其他具体数据集处理,之后再写。


若需要如SHHS、Sleep-EDF、ISRUC、NSRR等数据集的预处理脚本及其他,请私信博主。


多导睡眠图(Polysomnography, PSG)是睡眠医学中最标准、最全面的数据记录方式,包含 EEG、EOG、EMG、ECG、呼吸流量、胸腹带、血氧等多种通道。随着睡眠计算研究的快速增长,已有大量国际机构发布了高质量的PSG数据库,覆盖不同年龄、疾病、采集设备与临床场景。

统一预处理设定说明

为了保证跨数据集可比性,本文统一使用以下 PSG 解析策略:

项目 标准设定
EEG 通道 F4-M1(若无,则 Fz-Cz、C4-M1、F3-M2 等 fallback)
采样率 100 Hz(统一下采样)
Epoch 长度 30 秒
序列打包 20×30s(可选)
标签映射 Wake/N1/N2/N3/REM → 0/1/2/3/4
异常剔除 长时间无标签、段落中断、过短记录等

1. Sleep-EDF Expanded (Sleep-EDFx)

⭐ 基本介绍

由欧洲睡眠研究中心提供,是睡眠分期研究中使用最广的基础数据集之一,包含健康人与睡眠障碍人群。

结构

SC4xxxx0-PSG.edf       # 原始 PSG
SC4xxxx0-Hypnogram.edf # 标签

数据规模

版本 被试 夜晚 标签格式
Sleep Cassette 20 39 .hyp
Sleep Telemetry 22 44 .hyp

合计:78 夜晚

通道

  • EEG: Fpz-Cz, Pz-Oz

  • EOG: horizontal EOG

  • EMG: submental

  • ECG: 1 channel
    采样率很混乱(100 Hz、128 Hz、250 Hz 等),需要统一重采样。

统一处理后数量

以Fpz-Cz/100Hz/30s的epoch:

  • 约84,000 ~ 88,000个epoch

  • Wake/N1/N2/N3/REM 标签完整

适合作为 baseline 训练或调试。

数据分析情况:

--- 正在分析数据集: sleep-edfx ---
  [1] 扫描 'seq' 目录...
      找到 11806 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 11806 个 'label' 文件。
  [3] 对比分析与统计 (数据集: sleep-edfx)

  --- 文件完整性报告: sleep-edfx ---
    总 'seq' 文件数: 11806
    总 'label' 文件数: 11806
    [√] 成功匹配 11806 对文件 (样本量)

  --- 数据内容分析: sleep-edfx ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,)
    样本量 (文件数): 11806
    正在加载所有 11806 个标签文件以统计分布...
加载标签: 100%|██████████████ 11806/11806 [00:01<00:00, 7480.45it/s]
    标签分布 (基于 11806 个成功加载的样本, 共 236120 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 68517           | 29.02     %
      Class 1 (N1)    | 25117           | 10.64     %
      Class 2 (N2)    | 88863           | 37.63     %
      Class 3 (N3)    | 19450           | 8.24      %
      Class 4 (REM)   | 34173           | 14.47     %
 

2. SHHS(Sleep Heart Health Study, SHHS-1)

⭐ 基本介绍

全球最大规模的 PSG 队列之一,数据来自多中心,包含多种心血管相关疾病人群。

结构

nsrr/SHHS/polysomnography/edfs/shhs1-xxxx.edf
nsrr/SHHS/annotations-events-profusion/shhs1-xxxx-profusion.xml

数据规模

  • 被试:5,793

  • 每人一夜

  • 标签:Profusion XML(含呼吸事件等)

通道

EEG:C3-A2, C4-A1
EOG:2 ch
EMG:chin
ECG、SaO2、气流、胸腹带

采样率:125 Hz

统一处理后数量

(剔除标签缺失者后)

  • 约 1.4M ~ 1.5M epochs
    → 目前跨中心训练中的“大型源域”。

数据分析情况:
--- 正在分析数据集: SHHS1 ---
  [1] 扫描 'seq' 目录...
      找到 283166 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 283166 个 'label' 文件。
  [3] 对比分析与统计 (数据集: SHHS1)

  --- 文件完整性报告: SHHS1 ---
    总 'seq' 文件数: 283166
    总 'label' 文件数: 283166
    [√] 成功匹配 283166 对文件 (样本量)

  --- 数据内容分析: SHHS1 ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,)
    样本量 (文件数): 283166
    正在加载所有 283166 个标签文件以统计分布...
加载标签: 100%|████████████ 283166/283166 [01:59<00:00, 2372.11it/s]
    标签分布 (基于 283166 个成功加载的样本, 共 5663237 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 1600559         | 28.26     %
      Class 1 (N1)    | 215535          | 3.81      %
      Class 2 (N2)    | 2297641         | 40.57     %
      Class 3 (N3)    | 737983          | 13.03     %
      Class 4 (REM)   | 811519          | 14.33     %
 

3. ISRUC-Sleep

⭐ 基本介绍

葡萄牙 ISRUC 提供的完整 PSG + 专家标注数据。

结构

1/subject1/subject1.edf
1/subject1/subject1_Stages.txt
3/subject100/*.edf

三个部分

子集 被试数 备注
Part 1 100 有标签
Part 2 8 有标签
Part 3 10 多导较少

计:118

通道

常用 EEG:F3-C3, C3-A2, C4-A1
采样率:100 Hz(统一)

统一处理后数量

约 260k–280k epochs

数据分析情况:
--- 正在分析数据集: MROS1 ---
  [1] 扫描 'seq' 目录...
      找到 185117 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 185117 个 'label' 文件。
  [3] 对比分析与统计 (数据集: MROS1)

  --- 文件完整性报告: MROS1 ---
    总 'seq' 文件数: 185117
    总 'label' 文件数: 185117
    [√] 成功匹配 185117 对文件 (样本量)

  --- 数据内容分析: MROS1 ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,)
    样本量 (文件数): 185117
    正在加载所有 185117 个标签文件以统计分布...
加载标签: 100%|██████████| 185117/185117 [01:15<00:00, 2463.88it/s]
    标签分布 (基于 185117 个成功加载的样本, 共 3702299 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 1658522         | 44.80     %
      Class 1 (N1)    | 135895          | 3.67      %
      Class 2 (N2)    | 1277773         | 34.51     %
      Class 3 (N3)    | 231568          | 6.25      %
      Class 4 (REM)   | 398541          | 10.76     %
 

4. HMC-Sleep(Hospital do Mar Coimbra)

⭐ 基本介绍

西班牙/葡萄牙地区医院采集的完整 PSG,用于大量自动睡眠分期论文。

结构

PSG.edf
Hypnogram.txt

数据规模

  • 被试:154

  • 夜晚:154

通道

通常 F3-A2、C4-A1、Oz-A2
采样率:200 Hz 或 256 Hz(需统一)

数据分析情况:
--- 正在分析数据集: HMC ---
  [1] 扫描 'seq' 目录...
      找到 6721 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 6721 个 'label' 文件。
  [3] 对比分析与统计 (数据集: HMC)

  --- 文件完整性报告: HMC ---
    总 'seq' 文件数: 6721
    总 'label' 文件数: 6721
    [√] 成功匹配 6721 对文件 (样本量)

  --- 数据内容分析: HMC ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,) 
    样本量 (文件数): 6721
    正在加载所有 6721 个标签文件以统计分布...
加载标签: 100%|██████████| 6721/6721 [00:01<00:00, 3676.23it/s]
    标签分布 (基于 6721 个成功加载的样本, 共 134420 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 22517           | 16.75     %
      Class 1 (N1)    | 15408           | 11.46     %
      Class 2 (N2)    | 49244           | 36.63     %
      Class 3 (N3)    | 26421           | 19.66     %
      Class 4 (REM)   | 20830           | 15.50     %
 

5. P2018(PhysioNet CinC 2018)

⭐ 基本介绍

PhysioNet 2018 挑战赛的睡眠分期数据,标签由自动+人工修正。

结构

tr03-0003.edf
tr03-0003-hypnogram.edf

数据规模

  • 被试:1,983

  • 单夜 PSG

  • 标签较干净、时长完整

通道

EEG:F3-M2 / C4-M1 (任选)
EOG、EMG、ECG

采样率:200 Hz

统一处理后

  • 约 520k–580k epochs
    → 跨中心实验中常作为中型源域。

数据分析情况:
--- 正在分析数据集: P2018 ---
  [1] 扫描 'seq' 目录...
      找到 44149 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 44149 个 'label' 文件。
  [3] 对比分析与统计 (数据集: P2018)

  --- 文件完整性报告: P2018 ---
    总 'seq' 文件数: 44149
    总 'label' 文件数: 44149
    [√] 成功匹配 44149 对文件 (样本量)

  --- 数据内容分析: P2018 ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,)
    样本量 (文件数): 44149
    正在加载所有 44149 个标签文件以统计分布...
加载标签: 100%|████████████| 44149/44149 [00:14<00:00, 3117.24it/s]
    标签分布 (基于 44149 个成功加载的样本, 共 882980 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 153679          | 17.40     %
      Class 1 (N1)    | 135730          | 15.37     %
      Class 2 (N2)    | 375514          | 42.53     %
      Class 3 (N3)    | 102230          | 11.58     %
      Class 4 (REM)   | 115827          | 13.12     %
 

6. MESA(Multi-Ethnic Study of Atherosclerosis)

⭐ 基本介绍

包含不同种族群体的PSG数据,适合泛化研究。

数据规模

  • 被试:2056

  • 通道:C4-A1

采样率 256 Hz。

统一后

  • 约560k+ epochs

数据分析情况:
--- 正在分析数据集: MESA ---
  [1] 扫描 'seq' 目录...
      找到 127464 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 127464 个 'label' 文件。
  [3] 对比分析与统计 (数据集: MESA)

  --- 文件完整性报告: MESA ---
    总 'seq' 文件数: 127464
    总 'label' 文件数: 127464
    [√] 成功匹配 127464 对文件 (样本量)

  --- 数据内容分析: MESA ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,)    样本量 (文件数): 127464
    正在加载所有 127464 个标签文件以统计分布...
加载标签: 100%|████████████| 127464/127464 [00:57<00:00, 2229.10it/s]
    标签分布 (基于 127464 个成功加载的样本, 共 2549277 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 1087176         | 42.65     %
      Class 1 (N1)    | 203324          | 7.98      %
      Class 2 (N2)    | 841226          | 33.00     %
      Class 3 (N3)    | 149605          | 5.87      %
      Class 4 (REM)   | 267946          | 10.51     %

7. CCSHS / CFS 等儿童睡眠数据

⭐ 基本介绍

特点

  • 年龄跨度小

  • EEG 频谱结构与成人显著不同

  • 适合年龄分层研究

数量较小,通常:

  • CCSHS:~300 夜

  • CFS:~150 夜

统一后约:

  • 80k–120k epochs

数据分析情况:
--- 正在分析数据集: CCSHS ---
  [1] 扫描 'seq' 目录...
      找到 34334 个 'seq' 文件。
  [2] 扫描 'labels' 目录...
      找到 34334 个 'label' 文件。
  [3] 对比分析与统计 (数据集: CCSHS)

  --- 文件完整性报告: CCSHS ---
    总 'seq' 文件数: 34334
    总 'label' 文件数: 34334
    [√] 成功匹配 34334 对文件 (样本量)

  --- 数据内容分析: CCSHS ---
    样本形状 (基于第一个文件):
      - Seq Shape   : (20, 2, 3000) (推断: N=20, C=2, L=3000)
      - Label Shape : (20,) (推断: Epochs/Sample = 20)
    样本量 (文件数): 34334
    正在加载所有 34334 个标签文件以统计分布...
加载标签: 100%|██████████████████| 34334/34334 [00:14<00:00, 2293.39it/s]
    标签分布 (基于 34334 个成功加载的样本, 共 686679 个有效 Epochs):
      阶段              | Epochs 数量       | 百分比       
      --------------------------------------------
      Class 0 (Wake)  | 209292          | 30.48     %
      Class 1 (N1)    | 19074           | 2.78      %
      Class 2 (N2)    | 248584          | 36.20     %
      Class 3 (N3)    | 110038          | 16.02     %
      Class 4 (REM)   | 99691           | 14.52     %
 

8. 统一处理后:跨数据集规模总结

数据集 原始夜晚 统一处理后 Epoch 数(约)
Sleep-EDFx 78 0.08 M
SHHS-1 5,793 1.45 M
ISRUC 118 0.27 M
HMC 154 0.35 M
P2018 1,983 0.55 M
MESA 2,056 0.56 M
CCSHS/CFS ~450 0.10 M
总计 约 10,600 夜晚 3.3–3.6 M epochs

这是当前可公开收集到的最大PSG数据池。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐