全网最全!当前最全公开可用的PSG(多导睡眠图)数据集
全球最大规模的 PSG 队列之一,数据来自多中心,包含多种心血管相关疾病人群。葡萄牙 ISRUC 提供的完整 PSG + 专家标注数据。西班牙/葡萄牙地区医院采集的完整 PSG,用于大量自动睡眠分期论文。PhysioNet 2018 挑战赛的睡眠分期数据,标签由自动+人工修正。包含不同种族群体的PSG数据,适合泛化研究。
由于国际环境原因,目前已有多个机构对中国等国家的机构不再通过申请,所以导致部分研究者们获取不到原始数据集。
为了方便科研人员进行跨中心对比、构建泛化能力强的模型,本篇文章对目前主流公开 PSG 数据集进行系统整理。
由于篇幅限制,本文只写部分数据集,其他具体数据集处理,之后再写。
若需要如SHHS、Sleep-EDF、ISRUC、NSRR等数据集的预处理脚本及其他,请私信博主。
多导睡眠图(Polysomnography, PSG)是睡眠医学中最标准、最全面的数据记录方式,包含 EEG、EOG、EMG、ECG、呼吸流量、胸腹带、血氧等多种通道。随着睡眠计算研究的快速增长,已有大量国际机构发布了高质量的PSG数据库,覆盖不同年龄、疾病、采集设备与临床场景。
统一预处理设定说明
为了保证跨数据集可比性,本文统一使用以下 PSG 解析策略:
| 项目 | 标准设定 |
|---|---|
| EEG 通道 | F4-M1(若无,则 Fz-Cz、C4-M1、F3-M2 等 fallback) |
| 采样率 | 100 Hz(统一下采样) |
| Epoch 长度 | 30 秒 |
| 序列打包 | 20×30s(可选) |
| 标签映射 | Wake/N1/N2/N3/REM → 0/1/2/3/4 |
| 异常剔除 | 长时间无标签、段落中断、过短记录等 |
1. Sleep-EDF Expanded (Sleep-EDFx)


⭐ 基本介绍
由欧洲睡眠研究中心提供,是睡眠分期研究中使用最广的基础数据集之一,包含健康人与睡眠障碍人群。
结构
SC4xxxx0-PSG.edf # 原始 PSG
SC4xxxx0-Hypnogram.edf # 标签
数据规模
| 版本 | 被试 | 夜晚 | 标签格式 |
|---|---|---|---|
| Sleep Cassette | 20 | 39 | .hyp |
| Sleep Telemetry | 22 | 44 | .hyp |
合计:78 夜晚
通道
-
EEG: Fpz-Cz, Pz-Oz
-
EOG: horizontal EOG
-
EMG: submental
-
ECG: 1 channel
采样率很混乱(100 Hz、128 Hz、250 Hz 等),需要统一重采样。
统一处理后数量
以Fpz-Cz/100Hz/30s的epoch:
-
约84,000 ~ 88,000个epoch
-
Wake/N1/N2/N3/REM 标签完整
适合作为 baseline 训练或调试。
数据分析情况:
--- 正在分析数据集: sleep-edfx ---
[1] 扫描 'seq' 目录...
找到 11806 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 11806 个 'label' 文件。
[3] 对比分析与统计 (数据集: sleep-edfx)--- 文件完整性报告: sleep-edfx ---
总 'seq' 文件数: 11806
总 'label' 文件数: 11806
[√] 成功匹配 11806 对文件 (样本量)--- 数据内容分析: sleep-edfx ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,)
样本量 (文件数): 11806
正在加载所有 11806 个标签文件以统计分布...
加载标签: 100%|██████████████ 11806/11806 [00:01<00:00, 7480.45it/s]
标签分布 (基于 11806 个成功加载的样本, 共 236120 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 68517 | 29.02 %
Class 1 (N1) | 25117 | 10.64 %
Class 2 (N2) | 88863 | 37.63 %
Class 3 (N3) | 19450 | 8.24 %
Class 4 (REM) | 34173 | 14.47 %
2. SHHS(Sleep Heart Health Study, SHHS-1)


⭐ 基本介绍
全球最大规模的 PSG 队列之一,数据来自多中心,包含多种心血管相关疾病人群。
结构
nsrr/SHHS/polysomnography/edfs/shhs1-xxxx.edf
nsrr/SHHS/annotations-events-profusion/shhs1-xxxx-profusion.xml
数据规模
-
被试:5,793
-
每人一夜
-
标签:Profusion XML(含呼吸事件等)
通道
EEG:C3-A2, C4-A1
EOG:2 ch
EMG:chin
ECG、SaO2、气流、胸腹带
采样率:125 Hz
统一处理后数量
(剔除标签缺失者后)
-
约 1.4M ~ 1.5M epochs
→ 目前跨中心训练中的“大型源域”。
数据分析情况:
--- 正在分析数据集: SHHS1 ---
[1] 扫描 'seq' 目录...
找到 283166 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 283166 个 'label' 文件。
[3] 对比分析与统计 (数据集: SHHS1)--- 文件完整性报告: SHHS1 ---
总 'seq' 文件数: 283166
总 'label' 文件数: 283166
[√] 成功匹配 283166 对文件 (样本量)--- 数据内容分析: SHHS1 ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,)
样本量 (文件数): 283166
正在加载所有 283166 个标签文件以统计分布...
加载标签: 100%|████████████ 283166/283166 [01:59<00:00, 2372.11it/s]
标签分布 (基于 283166 个成功加载的样本, 共 5663237 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 1600559 | 28.26 %
Class 1 (N1) | 215535 | 3.81 %
Class 2 (N2) | 2297641 | 40.57 %
Class 3 (N3) | 737983 | 13.03 %
Class 4 (REM) | 811519 | 14.33 %
3. ISRUC-Sleep

⭐ 基本介绍
葡萄牙 ISRUC 提供的完整 PSG + 专家标注数据。
结构
1/subject1/subject1.edf
1/subject1/subject1_Stages.txt
3/subject100/*.edf
三个部分
| 子集 | 被试数 | 备注 |
|---|---|---|
| Part 1 | 100 | 有标签 |
| Part 2 | 8 | 有标签 |
| Part 3 | 10 | 多导较少 |
计:118
通道
常用 EEG:F3-C3, C3-A2, C4-A1
采样率:100 Hz(统一)
统一处理后数量
约 260k–280k epochs
数据分析情况:
--- 正在分析数据集: MROS1 ---
[1] 扫描 'seq' 目录...
找到 185117 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 185117 个 'label' 文件。
[3] 对比分析与统计 (数据集: MROS1)--- 文件完整性报告: MROS1 ---
总 'seq' 文件数: 185117
总 'label' 文件数: 185117
[√] 成功匹配 185117 对文件 (样本量)--- 数据内容分析: MROS1 ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,)
样本量 (文件数): 185117
正在加载所有 185117 个标签文件以统计分布...
加载标签: 100%|██████████| 185117/185117 [01:15<00:00, 2463.88it/s]
标签分布 (基于 185117 个成功加载的样本, 共 3702299 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 1658522 | 44.80 %
Class 1 (N1) | 135895 | 3.67 %
Class 2 (N2) | 1277773 | 34.51 %
Class 3 (N3) | 231568 | 6.25 %
Class 4 (REM) | 398541 | 10.76 %
4. HMC-Sleep(Hospital do Mar Coimbra)


⭐ 基本介绍
西班牙/葡萄牙地区医院采集的完整 PSG,用于大量自动睡眠分期论文。
结构
PSG.edf
Hypnogram.txt
数据规模
-
被试:154
-
夜晚:154
通道
通常 F3-A2、C4-A1、Oz-A2
采样率:200 Hz 或 256 Hz(需统一)
数据分析情况:
--- 正在分析数据集: HMC ---
[1] 扫描 'seq' 目录...
找到 6721 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 6721 个 'label' 文件。
[3] 对比分析与统计 (数据集: HMC)--- 文件完整性报告: HMC ---
总 'seq' 文件数: 6721
总 'label' 文件数: 6721
[√] 成功匹配 6721 对文件 (样本量)--- 数据内容分析: HMC ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,)
样本量 (文件数): 6721
正在加载所有 6721 个标签文件以统计分布...
加载标签: 100%|██████████| 6721/6721 [00:01<00:00, 3676.23it/s]
标签分布 (基于 6721 个成功加载的样本, 共 134420 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 22517 | 16.75 %
Class 1 (N1) | 15408 | 11.46 %
Class 2 (N2) | 49244 | 36.63 %
Class 3 (N3) | 26421 | 19.66 %
Class 4 (REM) | 20830 | 15.50 %
5. P2018(PhysioNet CinC 2018)


⭐ 基本介绍
PhysioNet 2018 挑战赛的睡眠分期数据,标签由自动+人工修正。
结构
tr03-0003.edf
tr03-0003-hypnogram.edf
数据规模
-
被试:1,983
-
单夜 PSG
-
标签较干净、时长完整
通道
EEG:F3-M2 / C4-M1 (任选)
EOG、EMG、ECG
采样率:200 Hz
统一处理后
-
约 520k–580k epochs
→ 跨中心实验中常作为中型源域。
数据分析情况:
--- 正在分析数据集: P2018 ---
[1] 扫描 'seq' 目录...
找到 44149 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 44149 个 'label' 文件。
[3] 对比分析与统计 (数据集: P2018)--- 文件完整性报告: P2018 ---
总 'seq' 文件数: 44149
总 'label' 文件数: 44149
[√] 成功匹配 44149 对文件 (样本量)--- 数据内容分析: P2018 ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,)
样本量 (文件数): 44149
正在加载所有 44149 个标签文件以统计分布...
加载标签: 100%|████████████| 44149/44149 [00:14<00:00, 3117.24it/s]
标签分布 (基于 44149 个成功加载的样本, 共 882980 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 153679 | 17.40 %
Class 1 (N1) | 135730 | 15.37 %
Class 2 (N2) | 375514 | 42.53 %
Class 3 (N3) | 102230 | 11.58 %
Class 4 (REM) | 115827 | 13.12 %
6. MESA(Multi-Ethnic Study of Atherosclerosis)


⭐ 基本介绍
包含不同种族群体的PSG数据,适合泛化研究。
数据规模
-
被试:2056
-
通道:C4-A1
采样率 256 Hz。
统一后
-
约560k+ epochs
数据分析情况:
--- 正在分析数据集: MESA ---
[1] 扫描 'seq' 目录...
找到 127464 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 127464 个 'label' 文件。
[3] 对比分析与统计 (数据集: MESA)--- 文件完整性报告: MESA ---
总 'seq' 文件数: 127464
总 'label' 文件数: 127464
[√] 成功匹配 127464 对文件 (样本量)--- 数据内容分析: MESA ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,) 样本量 (文件数): 127464
正在加载所有 127464 个标签文件以统计分布...
加载标签: 100%|████████████| 127464/127464 [00:57<00:00, 2229.10it/s]
标签分布 (基于 127464 个成功加载的样本, 共 2549277 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 1087176 | 42.65 %
Class 1 (N1) | 203324 | 7.98 %
Class 2 (N2) | 841226 | 33.00 %
Class 3 (N3) | 149605 | 5.87 %
Class 4 (REM) | 267946 | 10.51 %
7. CCSHS / CFS 等儿童睡眠数据
⭐ 基本介绍


特点
-
年龄跨度小
-
EEG 频谱结构与成人显著不同
-
适合年龄分层研究
数量较小,通常:
-
CCSHS:~300 夜
-
CFS:~150 夜
统一后约:
-
80k–120k epochs
数据分析情况:
--- 正在分析数据集: CCSHS ---
[1] 扫描 'seq' 目录...
找到 34334 个 'seq' 文件。
[2] 扫描 'labels' 目录...
找到 34334 个 'label' 文件。
[3] 对比分析与统计 (数据集: CCSHS)--- 文件完整性报告: CCSHS ---
总 'seq' 文件数: 34334
总 'label' 文件数: 34334
[√] 成功匹配 34334 对文件 (样本量)--- 数据内容分析: CCSHS ---
样本形状 (基于第一个文件):
- Seq Shape : (20, 2, 3000) (推断: N=20, C=2, L=3000)
- Label Shape : (20,) (推断: Epochs/Sample = 20)
样本量 (文件数): 34334
正在加载所有 34334 个标签文件以统计分布...
加载标签: 100%|██████████████████| 34334/34334 [00:14<00:00, 2293.39it/s]
标签分布 (基于 34334 个成功加载的样本, 共 686679 个有效 Epochs):
阶段 | Epochs 数量 | 百分比
--------------------------------------------
Class 0 (Wake) | 209292 | 30.48 %
Class 1 (N1) | 19074 | 2.78 %
Class 2 (N2) | 248584 | 36.20 %
Class 3 (N3) | 110038 | 16.02 %
Class 4 (REM) | 99691 | 14.52 %
8. 统一处理后:跨数据集规模总结
| 数据集 | 原始夜晚 | 统一处理后 Epoch 数(约) |
|---|---|---|
| Sleep-EDFx | 78 | 0.08 M |
| SHHS-1 | 5,793 | 1.45 M |
| ISRUC | 118 | 0.27 M |
| HMC | 154 | 0.35 M |
| P2018 | 1,983 | 0.55 M |
| MESA | 2,056 | 0.56 M |
| CCSHS/CFS | ~450 | 0.10 M |
| 总计 | 约 10,600 夜晚 | 3.3–3.6 M epochs |
这是当前可公开收集到的最大PSG数据池。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)