一区Top8.5分杂志发表中国学者机器学习论文，用“森林之神”方法筛选变量

‍引言“森林之神”——Boruta算法，是基于随机森林的一种特征选择方法，可以从众多特征中筛选出最重要的部分。今天分享的这篇一区top（IF 8.5）文章，学者就通过Boruta算法筛选变量，并通过四种机器学习算法构建了预测模型！慢性心力衰竭（CHF）是导致心血管相关死亡的主要原因之一，对人类健康构成重大威胁。应激性高血糖比（SHR）作为一种评估患者在急性医疗事件中体内血糖水平变化的指标，与多种重

陈如程

1396人浏览 · 2025-01-13 17:52:19

陈如程 · 2025-01-13 17:52:19 发布

‍

引言

“森林之神”——Boruta算法，是基于随机森林的一种特征选择方法，可以从众多特征中筛选出最重要的部分。今天分享的这篇一区top（IF 8.5）文章，学者就通过Boruta算法筛选变量，并通过四种机器学习算法构建了预测模型！

慢性心力衰竭（CHF）是导致心血管相关死亡的主要原因之一，对人类健康构成重大威胁。应激性高血糖比（SHR）作为一种评估患者在急性医疗事件中体内血糖水平变化的指标，与多种重症疾病的不良结局相关。

然而，目前尚不清楚SHR是否与先前患有CHF且入住重症监护病房（ICU）患者的死亡风险相关。

2024年12月7日，中国学者用MIMIC-IV 数据库，在期刊《Cardiovascular Diabetology》（医学top一区，IF=8.5）发表题为：“Predicting 28-day all-cause mortality in patients admitted to intensive care units with pre-existing chronic heart failure using the stress hyperglycemia ratio: a machine learning-driven retrospective cohort analysis”的研究论文，旨在探究SHR水平与先前患有CHF的ICU患者的28天住院死亡率的关联，并通过四种机器学习算法（ML）构建预测模型。

研究结果表明，对于先前患有慢性心力衰竭的ICU患者，SHR可作为预测其28天住院死亡的独立因素。此外，在构建的四种预测模型中，神经网络算法的预测性能最佳。

本公号回复“ 原文”即可获得文献PDF等资料

研究团队基于MIMIC-IV数据库2008年~2019年的数据，经过纳排，最终纳入了913名年龄≥18岁患有CHF且入住ICU的患者，59%为男性。并且在28天的随访中，有488名患者在住院期间死亡。

图1 研究流程

SHR可有效预测患者28天住院死亡率

首先，研究团队通过RCS曲线探究SHR水平与患者28天住院死亡率的关联，结果显示，患者28天死亡风险随着SHR水平的升高而增加。

图2 SHR水平与患者28天住院死亡率关联的RCS

调整了年龄、合并症败血症、肺炎和充血性心力衰竭、生命体征、OASIS评分、实验室检测指标和药物等

同时，Cox比例风险回归模型结果表明，SHR与28天住院死亡率独立相关。并且，亚组分析结果与其一致。

表1 COX比例风险回归和亚组分析

研究团队还通过绘制SHR、入院血糖（ABG）和糖化血红蛋白（HbA1c）的ROC曲线来预测患者28天的住院死亡率。结果表明，SHR（AUC=0.924）的预测能力优于ABG（AUC=0.910）和HbA1c（AUC=0.917 ），其截断值为0.57。

图3 ROC曲线

此外，研究团队根据SHR的截断值（0.57）将所有患者分为两组，并绘制了两组的Kaplan-Meier生存曲线。

结果表明，与SHR<0.57组相比，SHR≥0.57组患者的28天住院生存率显著降低。

图4 Kaplan-Meier生存曲线

预测模型的构建与评估

√变量筛选

研究团队通过“森林之神”—Boruta算法，筛选出15个重要预测因子。其中，SHR是预测患者28天住院死亡率的关键预测因子之一。

图5 Boruta算法

绿色框表示重要变量，红色框表示不重要的变量，黄色框表示可能重要的变量

√数据处理

研究团队将从MIMIC-IV数据库收集的数据以7：3的比例随机分为训练集（n=640）和验证集（n=273）。

√模型构建和评估

团队通过四种机器学习算法预测患者的28天住院死亡率，包括Coxph 、K-最近邻算法（KNN）、朴素贝叶斯（Bayes）和神经网络算法。

同时，通过ROC曲线、决策曲线（DCA）和校准曲线评估模型的预测性能。结果表明，神经网络算法模型的预测性能最佳。

图6 机器学习模型的ROC曲线

综上所述，研究团队认为，对于先前患有慢性心力衰竭的ICU患者，SHR是预测其28天住院死亡率的独立因素，且其性能优于HbA1c和血糖。此外，在基于机器学习算法构建的预测模型中，神经网络算法预测性能最佳。

亮点小结

其实基于机器学习构建预测模型的套路非常类似，基本上都是数据收集、特征筛选、模型构建以及模型评估。

想要在常规思路上有所亮点，不如尝试本文用“森林之神”—Boruta算法筛选变量的思路，让研究的统计方法更加高级。

如果你想在其他公共数据库尝试，可以看看郑老师的NHANES和GBD一对一课程！数据库挖掘教学+文章复现+选题建议+R代码报错指导，从零到一，足以满足你的发文需求，让你不再为SCI文章焦头烂额！

请关注“公共数据库与孟德尔随机化”公众号，今后我们也会分享更多公共数据库联合机器学习发高分的优秀文章，大家敬请期待！

关于郑老师团队及公众号

大型医学统计公众号平台，专注于医学生、医护工作者学术研究统计支持，我们是你们统计助理

郑老师团队开设的医学统计培训课程，各类发文需求都可以满足：

GBD公共数据库挖掘、NHANES公共数据库挖掘、孟德尔随机化方法

真实世界临床研究（临床回顾性数据分析）、临床预测模型

临床试验设计与数据分析、重复测量资料分析、R语言

量表与中介数据分析、Meta分析

（目前购买统计课程还可参与发表SCI注明我们平台退课程费用的活动，详情扫描下方二维码添加助教微信咨询详情）

郑老师开发的超便捷免费统计工具了解一下：

www.medsta.cn/software(详情介绍)

详情联系助教小董咨询（微信号aq566665）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda