杀疯了!中国学者联合8种机器学习法+MIMIC多数据集,发文一区top(IF=8.8)
引言要想构建临床预测模型,机器学习绝对是不二选择!今天分享一篇公共数据库+机器学习的高分文章,中国学者用8种机器学习算法构建可解释性临床预测模型,研究设计流畅、统计分析规范,想做机器学习的朋友们可以借鉴一下这篇文章!新发房颤(NOAF)是心脏手术后患者最常见的并发症,总体发病率为31%至74%。先前的研究发现,NOAF的发生可能会增加患者的中风、心力衰竭(HF)以及死亡风险。近年来,机器学习(M.
引言
要想构建临床预测模型,机器学习绝对是不二选择!
今天分享一篇公共数据库+机器学习的高分文章,中国学者用8种机器学习算法构建可解释性临床预测模型,研究设计流畅、统计分析规范,想做机器学习的朋友们可以借鉴一下这篇文章!
新发房颤(NOAF)是心脏手术后患者最常见的并发症,总体发病率为31%至74%。先前的研究发现,NOAF的发生可能会增加患者的中风、心力衰竭(HF)以及死亡风险。
近年来,机器学习(ML)在医学领域的应用越来越广泛,尤其在构建患者的生存和预后预测模型方面取得了不少成果。因此,本研究同样使用ML方法构建危重患者NOAF风险人群识别模型,并利用SHAP法对模型进行可视化解读。
2024年10月29日,中国学者用MIMIC-IV、MIMIC-III两个数据集,在期刊《Critical Care》(医学一区top,IF=8.8)发表题为:“Interpretable machine learning model for new-onset atrial fibrillation prediction in critically ill patients: a multi-center study”的研究论文,旨在使用机器学习(ML)创建并验证危重患者的NOAF预测模型,同时使用SHAP法对模型结果进行解释。

本公号回复“ 原文”即可获得文献PDF等资料。就在本周末,我们的基于R语言构建机器学习课程开课啦!如感兴趣请联系郑老师团队,微信号:aq566665
在该项研究中,研究团队使用MIMIC数据库的两个非重叠数据集:
-
MIMIC-IV用于构建模型,经过纳排,最终纳入16,528名年龄≥18岁,入住ICU超过2天、未接受心脏手术切无AF病史的参与者(对于多次入住ICU的患者,仅纳入患者首次入住ICU时的入住记录);
-
MIMIC-III的子集用作外部验证,最终纳入6,037名符合条件的参与者。

图1 研究设计
√数据收集
研究团队使用PostgreSQL中的结构化查询语言(SQL),从两个数据库中提取前24小时内入住ICU的患者的数据,包括人口学信息、合并症、实验室指标、生命体征及治疗措施等。由于提取的变量较多,本文就不一一展示了。
除变量经皮动脉血氧饱和度(SpO 2)外,其余变量都取第一天的最大值和最小值进行多次测量。
√数据处理
为减少缺失数据对模型构建的影响,使用KNNImputer(KNN)方法插补缺失小于20%的数据,并丢弃缺失大于20%的数据。
由于因变量中的类别不平衡,采用欠采样的方式对数据进行重采样,使数据达到平衡。
主要结局:患者在ICU入院后第一天发生NOAF。
Lasso法筛选特征
在特征较多的情况下,研究者采用lasso方法进行特征筛选。
-
引入L1正则化,通过压缩系数、筛选贡献较大的特征、剔除冗余特征等方法进行特征选择和降维。
最终,纳入了与NOAF密切相关的23个变量(包括入院年龄、种族、体重、尿量、WBC_max(白色细胞)、BUN_min(血尿素氮)、钾_min、HR_min(心率)、HR_max、SBP_min(收缩压)、DBP_max(舒张压)、MBP_min、RR_min、temperature_min、temperature_max、SpO2_min、慢性肝病、HFrEF、HFpEF、脓毒症、机械通气、CRRT、血管加压药)。

图2 基于Lasso回归的变量筛选
(A)变系数的变化特征;(B) 用交叉验证对Lasso回归模型中参数λ最优值进行选择
模型性能比较
使用8种机器学习(ML)法构建预测模型(包括极限梯度提升(XGBoost)、支持向量机(SVM)、自适应提升(Adaboost)、多层感知器(MLP)、神经网络(NN)、朴素贝叶斯(NB)、逻辑回归(LR)和梯度提升机(GBM))。
-
采用10重交叉验证法保证模型的稳定性;
-
网格调整参数为每种算法选择最佳调整参数。
使用多种指标评估模型性能,包括ROC曲线、AUC值、敏感性、特异性、F1分数、准确性等,并绘制校准曲线和决策曲线(DCA)分析模型的临床适用性。
-
在参数调整过程中,选取AUC值最大的模型为最佳预测模型。
研究结果表明,XGBoost表现最好,在验证中达到0.891(0.873-0.888)的AUC,在外部验证中达到0.769(0.756-0.782)。

图3 机器学习模型的ROC曲线
SHAP法进行可解释性分析
最后通过SHAP方法分析XGBoost模型的特征贡献,以SHAP力图和群体图形式可视化模型的可解释性。
结果表明,关键预测因素包括年龄、机械通气、尿量、脓毒症、BUN、SpO2、CRRT和体重。

图4 使用SHAP可视化解释机器学习模型
综上所述,研究团队使用8种ML算法通过筛选ICU入院前24小时内的23个临床变量来构建预测模型。
结果表明,XGBoost算法表现出强大的性能,具有鉴别力和校准能力,并在临床实践中显示出巨大的净效益。外部验证队列的结果进一步证实了模型的稳定性和准确性。为了更深入地了解模型,还用SHAP方法进行可视化,得出关键预测指标。
同样是构建临床预测模型,别人都在用机器学习分析了,你还在常规套路挣扎?如果你也对机器学习课程感兴趣,不妨来看看郑老师推出的基于R语言的机器学习构建临床预测模型课程!面对面线上授课,实时交流,不怕零基础!
关注“公共数据库与孟德尔随机化”公众号,了解更多最新发文风向!
郑老师统计团队及公众号
全国较大的线上医学统计服务平台,专注于医学生、医护工作者学术研究统计支持,我们是你们统计助理!
我们提供以医学数据数据挖掘统计服务
同时我们提供上述数据库的挖掘的一对一指导
联系助教陈老师咨询(微信号sas555777)

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)