完整五个数据集处理请见:

https://blog.csdn.net/m0_70335361/article/details/151406787?fromshare=blogdetail&sharetype=blogdetail&sharerId=151406787&sharerefer=PC&sharesource=m0_70335361&sharefrom=from_linkhttps://blog.csdn.net/m0_70335361/article/details/151406787?fromshare=blogdetail&sharetype=blogdetail&sharerId=151406787&sharerefer=PC&sharesource=m0_70335361&sharefrom=from_link本文代码已公开至:XingXingYuoos/PSG_data_prepare


一、背景介绍

睡眠医学研究中多导睡眠图(PSG)数据集的异构性导致跨研究分析困难
SHHS数据库作为公开基准数据集的价值
统一格式化处理对提高数据复用性和算法泛化能力的作用


二、数据集介绍

SHHS(Sleep Heart Health Study) 是目前世界上规模较大的多中心睡眠监测研究项目之一,旨在探索睡眠呼吸障碍(如睡眠呼吸暂停综合征)与心血管疾病之间的关系。

  • 研究时间:从 1995 年开始

  • 受试者人数:超过 6,000 名成年人

  • 数据类型:基于 多导睡眠图(PSG) 的夜间监测数据

  • 数据规模:原始 PSG 数据 + 临床/人口学信息

SHHS 提供了完整的 多导睡眠监测信号

  • EEG(脑电图):主要通道如 C4–M1

  • EOG(眼电图):左右眼动信号(ROC、LOC)

  • EMG(肌电图):下颌肌或腿部肌电

  • ECG(心电图)

  • 呼吸信号:气流、胸腹呼吸带

  • 血氧饱和度(SpO₂)

  • 打鼾、体位、脉搏 等附加指标

此外,还包括:

  • 睡眠分期标签(Wake、N1、N2、N3、REM)

  • 呼吸事件标注(呼吸暂停、低通气等)

  • 临床与人口学数据(BMI、血压、心血管疾病史等

官网提供的文件如下:

在 SHHS 访问 1 中,有 5,793 名受试者获得了原始多导睡眠图数据,在 SHHS 访问 2 中,有 2,651 名受试者获得了原始多导睡眠图数据。每个记录都有一个信号文件 (.EDF) 和两个版本的事件评分和时期分期注释 (.XML)。

EDF——从 Compumedics Profusion 导出的欧洲数据格式的信号文件。
XML (Profusion) - 从 Compumedics Profusion 导出的注释文件。
XML (NSRR) - 在EDF 编辑器和转换器工具中处理的注释文件。


三、数据集预处理

step1:导入必要的库

from mne.io import concatenate_raws, read_raw_edf
import matplotlib.pyplot as plt
import mne
import os
import numpy as np
from tqdm import tqdm
from sklearn.preprocessing import StandardScaler
import xml.etree.ElementTree as ET

step2:基础路径与配置 

dir_path_psg = '/shhs/polysomnography/edfs/shhs1'
dir_path_ann = '/shhs/polysomnography/annotations-events-profusion/shhs1'

seq_dir = '/data/SHHS1/seq'
label_dir = '/data/SHHS1/labels'


signal_name = ['EEG', 'EOG(L)']

label2id = {'0': 0, '1': 1, '2': 2, '3': 3, '4': 3, '5': 4, '9': 0}


target_sfreq = 100
epoch_sec = 30
pack_size = 20  # 每 20 个 epoch 打包成一个序列

step3:工具函数

def step3_list_and_pair_files(dir_psg, dir_ann):

    psg_f_names = sorted(os.listdir(dir_psg))
    label_f_names = sorted(os.listdir(dir_ann))

    pairs = []
    for psg_f_name, label_f_name in zip(psg_f_names, label_f_names):
        if psg_f_name[:12] == label_f_name[:12]:
            pairs.append((psg_f_name, label_f_name))

    print(f"[Step 2] 共配对到 {len(pairs)} 个文件:")
    # print(pairs)
    return pairs

step4:预处理和读取EDF

def step3_prepare_dirs(seq_dir, label_dir):

    os.makedirs(seq_dir, exist_ok=True)
    os.makedirs(label_dir, exist_ok=True)
    print(f"[Step 3] 输出目录已就绪:\n  seq_dir={seq_dir}\n  label_dir={label_dir}")

def step4_load_and_preprocess_psg(psg_path):

    # 读取原始
    raw = read_raw_edf(psg_path, preload=True, verbose='ERROR')
    print(f"[Step 4] 原始 info:\n{raw.info}")

    # 选通道
    raw.pick_channels(signal_name)

    # 重采样 & 滤波
    raw.resample(sfreq=target_sfreq)
    raw.filter(0.3, 35, fir_design='firwin')

    print(f"[Step 4] 预处理后 info:\n{raw.info}")

    # 转 DataFrame 再取值(第一列是 time,需要去掉)
    psg_array = raw.to_data_frame().values
    psg_array = psg_array[:, 1:]  # 去除时间列,只保留信号通道,形状: (N_samples, 2)

    # 标准化(逐记录)
    std = StandardScaler()
    psg_array = std.fit_transform(psg_array)

    # 对齐到 30s(100Hz * 30s = 3000 样本)
    samples_per_epoch = epoch_sec * target_sfreq
    cut_tail30 = psg_array.shape[0] % samples_per_epoch
    if cut_tail30 > 0:
        psg_array = psg_array[:-cut_tail30, :]

    # reshape 成 (N_epoch, 3000, 2)
    psg_array = psg_array.reshape(-1, samples_per_epoch, len(signal_name))

    # 对齐到 20 个 epoch 的整包
    cut_tail20 = psg_array.shape[0] % pack_size
    if cut_tail20 > 0:
        psg_array = psg_array[:-cut_tail20, :,:]

    # 形状变换: (N_epoch, 3000, 2) -> (N_pack, 20, 3000, 2) -> (N_pack, 20, 2, 3000)
    psg_array = psg_array.reshape(-1, pack_size, samples_per_epoch, len(signal_name))
    epochs_seq = psg_array.transpose(0, 1, 3, 2)

    print(f"[Step 4] 预处理后数组形状:epochs_seq={epochs_seq.shape} (N_pack, {pack_size}, C={len(signal_name)}, T={samples_per_epoch})")
    return epochs_seq

step5:解析xml

def step5_parse_labels(xml_path, label2id, cut_tail20):
    labels_list = []
    tree = ET.parse(xml_path)
    root = tree.getroot()
    # 与原脚本一致:直接遍历 SleepStage
    for child in root.iter('SleepStage'):
        labels_list.append(label2id[child.text])

    labels_array = np.array(labels_list, dtype=np.int64)

    # 对齐到 20 的整包(与 Step4 的切尾数量一致)
    if cut_tail20 > 0:
        labels_array = labels_array[:-cut_tail20]

    labels_seq = labels_array.reshape(-1, pack_size)
    print(f"[Step 5] 标签形状:labels_seq={labels_seq.shape} (N_pack, {pack_size})")
    return labels_seq

step6:保存文件

def step6_save_npys(out_seq_dir, out_label_dir, rec_id, epochs_seq, labels_seq, start_seq_idx=0, start_label_idx=0):
    # 建子目录
    seq_subdir = os.path.join(out_seq_dir, rec_id)
    label_subdir = os.path.join(out_label_dir, rec_id)
    os.makedirs(seq_subdir, exist_ok=True)
    os.makedirs(label_subdir, exist_ok=True)

    # 保存序列
    local_num_seqs = 0
    for i, seq in enumerate(epochs_seq):
        seq_name = os.path.join(seq_subdir, f"{rec_id}-{start_seq_idx + local_num_seqs}.npy")
        with open(seq_name, 'wb') as f:
            np.save(f, seq)
        local_num_seqs += 1

    # 保存标签
    local_num_labels = 0
    for i, label_pack in enumerate(labels_seq):
        label_name = os.path.join(label_subdir, f"{rec_id}-{start_label_idx + local_num_labels}.npy")
        with open(label_name, 'wb') as f:
            np.save(f, label_pack)
        local_num_labels += 1

    print(f"[Step 6] 保存完成:seq={local_num_seqs},labels={local_num_labels},rec_id={rec_id}")
    return local_num_seqs, local_num_labels

step7:main

if __name__ == "__main__":
    # Step 2: 配对 PSG 与 XML
    psg_label_f_pairs = step2_list_and_pair_files(dir_path_psg, dir_path_ann)
    print(f"[Step 2] 映射表:{label2id}")

    # Step 3: 准备输出目录
    step3_prepare_dirs(seq_dir, label_dir)

    # Step 4~6: 循环处理若干记录(与原脚本一致:前 150 个)
    num_seqs = 0
    num_labels = 0

    for psg_f_name, label_f_name in tqdm(psg_label_f_pairs[:150], desc="Processing SHHS1"):
        rec_id = psg_f_name[:12]
        psg_path = os.path.join(dir_path_psg, psg_f_name)
        xml_path = os.path.join(dir_path_ann, label_f_name)

        # ---- Step 4: 读取与预处理 PSG ----
        # 这里需要知道在对齐到 20-epoch 之前,被截去的 epoch 数;我们按与你原逻辑严格同步:
        # 先对齐到 30s -> 再 reshape -> 再对齐到 20 的整包
        # 为了获得 cut_tail20,我们复用内部逻辑:先计算 epoch 数后对齐(见下)。
        raw_tmp = read_raw_edf(psg_path, preload=True, verbose='ERROR')
        raw_tmp.pick_channels(signal_name)
        raw_tmp.resample(sfreq=target_sfreq)
        raw_tmp.filter(0.3, 35, fir_design='firwin')
        arr_tmp = raw_tmp.to_data_frame().values[:, 1:]
        samples_per_epoch = epoch_sec * target_sfreq
        cut_tail30 = arr_tmp.shape[0] % samples_per_epoch
        if cut_tail30 > 0:
            arr_tmp = arr_tmp[:-cut_tail30, :]
        n_epoch = arr_tmp.shape[0] // samples_per_epoch
        cut_tail20 = n_epoch % pack_size  # 需要在标签侧裁掉同样的 epoch 数

        # 正式得到 epochs_seq
        epochs_seq = step4_load_and_preprocess_psg(psg_path)

        # ---- Step 5: 解析与对齐标签 ----
        labels_seq = step5_parse_labels(xml_path, label2id, cut_tail20)

        # ---- Step 6: 保存 ----
        add_seqs, add_labels = step6_save_npys(
            seq_dir, label_dir, rec_id,
            epochs_seq, labels_seq,
            start_seq_idx=num_seqs, start_label_idx=num_labels
        )
        num_seqs += add_seqs
        num_labels += add_labels

    # Step 7: 汇总打印
    print(f"[Step 7] 全部完成:保存序列 {num_seqs} 个,标签 {num_labels} 个。")

最后生成结果:

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐