杀疯了！中国学者联合8种机器学习法＋MIMIC多数据集，发文一区top（IF=8.8）

引言要想构建临床预测模型，机器学习绝对是不二选择！今天分享一篇公共数据库+机器学习的高分文章，中国学者用8种机器学习算法构建可解释性临床预测模型，研究设计流畅、统计分析规范，想做机器学习的朋友们可以借鉴一下这篇文章！新发房颤(NOAF)是心脏手术后患者最常见的并发症，总体发病率为31%至74%。先前的研究发现，NOAF的发生可能会增加患者的中风、心力衰竭（HF）以及死亡风险。近年来，机器学习（M.

陈如程

1633人浏览 · 2024-11-27 17:59:32

陈如程 · 2024-11-27 17:59:32 发布

引言

要想构建临床预测模型，机器学习绝对是不二选择！

今天分享一篇公共数据库+机器学习的高分文章，中国学者用8种机器学习算法构建可解释性临床预测模型，研究设计流畅、统计分析规范，想做机器学习的朋友们可以借鉴一下这篇文章！

新发房颤(NOAF)是心脏手术后患者最常见的并发症，总体发病率为31%至74%。先前的研究发现，NOAF的发生可能会增加患者的中风、心力衰竭（HF）以及死亡风险。

近年来，机器学习（ML）在医学领域的应用越来越广泛，尤其在构建患者的生存和预后预测模型方面取得了不少成果。因此，本研究同样使用ML方法构建危重患者NOAF风险人群识别模型，并利用SHAP法对模型进行可视化解读。

2024年10月29日，中国学者用MIMIC-IV、MIMIC-III两个数据集，在期刊《Critical Care》（医学一区top，IF=8.8）发表题为：“Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study”的研究论文，旨在使用机器学习（ML）创建并验证危重患者的NOAF预测模型，同时使用SHAP法对模型结果进行解释。

本公号回复“ 原文”即可获得文献PDF等资料。就在本周末，我们的基于R语言构建机器学习课程开课啦！如感兴趣请联系郑老师团队，微信号：aq566665

在该项研究中，研究团队使用MIMIC数据库的两个非重叠数据集：

MIMIC-IV用于构建模型，经过纳排，最终纳入16,528名年龄≥18岁，入住ICU超过2天、未接受心脏手术切无AF病史的参与者（对于多次入住ICU的患者，仅纳入患者首次入住ICU时的入住记录）；
MIMIC-III的子集用作外部验证，最终纳入6,037名符合条件的参与者。

图1 研究设计

√数据收集

研究团队使用PostgreSQL中的结构化查询语言（SQL），从两个数据库中提取前24小时内入住ICU的患者的数据，包括人口学信息、合并症、实验室指标、生命体征及治疗措施等。由于提取的变量较多，本文就不一一展示了。

除变量经皮动脉血氧饱和度（SpO 2）外，其余变量都取第一天的最大值和最小值进行多次测量。

√数据处理

为减少缺失数据对模型构建的影响，使用KNNImputer（KNN）方法插补缺失小于20%的数据，并丢弃缺失大于20%的数据。

由于因变量中的类别不平衡，采用欠采样的方式对数据进行重采样，使数据达到平衡。

主要结局：患者在ICU入院后第一天发生NOAF。

Lasso法筛选特征

在特征较多的情况下，研究者采用lasso方法进行特征筛选。

引入L1正则化，通过压缩系数、筛选贡献较大的特征、剔除冗余特征等方法进行特征选择和降维。

最终，纳入了与NOAF密切相关的23个变量（包括入院年龄、种族、体重、尿量、WBC_max（白色细胞）、BUN_min（血尿素氮）、钾_min、HR_min（心率）、HR_max、SBP_min（收缩压）、DBP_max（舒张压）、MBP_min、RR_min、temperature_min、temperature_max、SpO2_min、慢性肝病、HFrEF、HFpEF、脓毒症、机械通气、CRRT、血管加压药）。

图2 基于Lasso回归的变量筛选

（A）变系数的变化特征；（B）用交叉验证对Lasso回归模型中参数λ最优值进行选择

模型性能比较

使用8种机器学习（ML）法构建预测模型（包括极限梯度提升（XGBoost）、支持向量机（SVM）、自适应提升（Adaboost）、多层感知器（MLP）、神经网络（NN）、朴素贝叶斯（NB）、逻辑回归（LR）和梯度提升机（GBM））。

采用10重交叉验证法保证模型的稳定性；
网格调整参数为每种算法选择最佳调整参数。

使用多种指标评估模型性能，包括ROC曲线、AUC值、敏感性、特异性、F1分数、准确性等，并绘制校准曲线和决策曲线（DCA）分析模型的临床适用性。

在参数调整过程中，选取AUC值最大的模型为最佳预测模型。

研究结果表明，XGBoost表现最好，在验证中达到0.891（0.873-0.888）的AUC，在外部验证中达到0.769（0.756-0.782）。

图3 机器学习模型的ROC曲线

SHAP法进行可解释性分析

最后通过SHAP方法分析XGBoost模型的特征贡献，以SHAP力图和群体图形式可视化模型的可解释性。

结果表明，关键预测因素包括年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT和体重。

图4 使用SHAP可视化解释机器学习模型

综上所述，研究团队使用8种ML算法通过筛选ICU入院前24小时内的23个临床变量来构建预测模型。

结果表明，XGBoost算法表现出强大的性能，具有鉴别力和校准能力，并在临床实践中显示出巨大的净效益。外部验证队列的结果进一步证实了模型的稳定性和准确性。为了更深入地了解模型，还用SHAP方法进行可视化，得出关键预测指标。

同样是构建临床预测模型，别人都在用机器学习分析了，你还在常规套路挣扎？如果你也对机器学习课程感兴趣，不妨来看看郑老师推出的基于R语言的机器学习构建临床预测模型课程！面对面线上授课，实时交流，不怕零基础！

关注“公共数据库与孟德尔随机化”公众号，了解更多最新发文风向！

郑老师统计团队及公众号

全国较大的线上医学统计服务平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理！

我们提供以医学数据数据挖掘统计服务

①NAHANES：一二区论文占半数

②MIMIC：急诊数据分析与机器学习建模

③GBD：全球、中国各种疾病患病、死亡研究

④孟德尔随机化：疾病的因果推断研究

同时我们提供上述数据库的挖掘的一对一指导

GBD、NHANES医学数据库挖掘1对1R语言指导

联系助教陈老师咨询（微信号sas555777）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda