近日,CHARLS整理分析平台正式上线了聚类分析,今天给大家详细说明一下如何进行聚类分析。

在开始研究前,我们需要重点明确什么是聚类变量:

  • 聚类变量是指在聚类分析中用于对数据进行分类的特征或指标。这些变量可以是连续变量(如身高),也可以是分类变量(如性别)。

  • 聚类分析的目标是根据这些变量的取值,将数据划分为不同的类别,使得同一类别内的数据具有较高的相似性,而不同类别之间的数据具有较大的差异性。

明确完聚类变量后,接下来按照操作流程进行即可。

一.CHARLS提取平台——提取数据

1.获取宽数据

关于平台提取数据的操作,各位可以看教学视频,这里就不细说了。正常提取指标数据即可

CHARLS数据库独有的2011和2015年两个波次的血检数据,很适合做聚类分析。

因此,本文将以CHARLS 2011~2015年的TyG作为暴露,心血管疾病作为结局,探究TyG与结局之间的关联。

2.进行纳排

这里纳排标准为 保证参与者均具有最关键的变量——完整的TyG数据。

大家实际研究时,请根据自己的研究思路进一步添加纳排标准

3.下载纳排后数据

二、申请原始数据

[重点] 后续分析需要用到原始数据,所以请先申请原始数据,具体的申请标准群内都有说明哦~

请注意 申请格式须为宽数据!!!

三、聚类网页应用

1、打开网页

打开提供的聚类代码(和轨迹同一个代码),运行到最后一步 ,跳转到网页版的聚类分析

2、数据准备

导入原始的宽数据

3.变量定义

需将纳入聚类的变量设为定量变量数值型

由于2013年没有TyG数据,这里的聚类变量就是TyG2011和TyG2015年。

ps:别管原数据多少,在聚类分析时我们只需要关注聚类变量即可。

4.最佳聚类选择

在该模块 我们最重要的目的是得出最佳聚类数!

👀问题1.标准化聚类变量是否勾选?

答:不同类型的数据才需要用到标准化 比如我选择了体重和身高作为聚类,这是两种变量,那我就需要进行标准化。

但如果我选取的是体重的不同年份数据,那就不需要勾选。

以本文的TyG数据为例,则不需要勾选。

👀问题2.起始值确定方法如何选择?适用场景是什么?

1. k-means++(最常用、推荐)

绝大多数情况下的首选,尤其是k较大、数据分布不均匀时。

2. random(完全随机)

  • 数据量极大,对速度极度敏感

  • 数据分布非常均匀时可能还行

3. quantile_init(分位数初始化)

  • 低维数据(d ≤ 3)

  • 需要可重复的结果

  • 数据大致呈均匀分布或已知分布

4. optimal_init(最优初始化)

  • 对聚类质量要求极高

  • 数据量不大,可承受更高计算成本

👀问题3.最佳聚类绘图方法如何选取?

平台共提供5种绘图方法:簇内平方和、轮廓系数、AIC、BIC、调整R方

最佳聚类选择没有金标准,大家在判断时可以综合这几种方式选择。

建议至少结合簇内平方和+轮廓系数进行选择!

‼️究竟如何选择最佳聚类数?

选择最佳聚类数的 核心是  在模型的“复杂度”(聚类数K)和“拟合度/解释能力”之间找到最佳平衡点。

这里对平台包含的常用方法进行解释:

1. 簇内平方和

原理:计算不同K值下的总簇内平方和。随着K增加,每个簇更小、更紧凑,SSE必然会下降。目标是找到SSE下降速度突然变缓的那个“拐点”,形如手肘。

选取原则:寻找曲线从“陡峭”变为“平缓”的转折点。该点对应的K值通常被认为是较好的选择。

2. 轮廓系数

原理:综合衡量一个样本与其所属簇的相似度(凝聚度a)和与其他最近簇的相似度(分离度b)。

选取原则:绘制不同K值对应的平均轮廓系数图,选择系数最大的K。

3. 信息准则:AIC 与 BIC
原理:在基于概率的聚类模型(如高斯混合模型GMM)中,它们衡量模型的似然拟合优度,同时对模型复杂度(参数数量,与K正相关)进行惩罚。
如果使用GMM,则计算AIC/BIC
选取原则:拟合不同K值的模型,计算AIC和BIC,选择值最小的K。
在本文的最佳聚类选择中,簇内平方和提示2/3分类,轮廓系数法提示2更好。因此,综合选择2作为最佳聚类。

5.聚类分析⭐
  • ID变量即为受访者编码

  • 聚类变量、起始值确定方法与上一步中的最佳聚类选择保持一致。

  • 更改最佳聚类数为刚刚确认的数值。

  • 导出聚类结果:即可得到各ID的聚类分组——Cluster_Group。

6.聚类可视化⭐

为方便大家理解,我们以一篇一区Top文章(PMID: 40355933)中涉及的聚类结果图为例,进行讲解。

A为最佳聚类数选择结果图;B为散点图;C为均值折线图

平台包含的绘图类型共有三种:

💠绘图类型1:散点图

需注意:散点图变量选择为两个!!!

💠绘图类型2:均值折线图

ps:如果想要完全实现参考文献中 横坐标的TyG_2011改名为2011,只需在数据集中更改变量名即可实现。

💠绘图类型3:密度图

可以查看单一数据的分布情况。

图表的各种设置,大家可以多多摸索一下,帮您做出更加精美的图形。

各种设置完成后,点击底部的“导出聚类图形”即可。

四、统计分析

将保存的宽数据在分析平台进行常规的统计分析即可。

1.导入刚刚在聚类分析步骤导出的聚类结果(此为原始宽数据 无需在平台解码)

2.统计分析

以cox回归为例,将暴露因素选为Cluster_Group,即可探究不同聚类与结局之间的关联。

其余回归分析原理相同。

以上就是对于CHARLS平台进行聚类分析的使用教程。感兴趣的朋友欢迎联系我们~

[注] 我们的CHARLS平台持续更新中,不断丰富指标与功能!有需求的朋友欢迎向我们提供建议,争取为你打造最全面且权威的一站式科研分析平台。

图片

费用与服务

费用:

CHARLS整理分析平台:2000元/年

(有购买郑老师其他课程的学员享9折优惠

相关服务:

✅买1年送1年,共2年的平台使用权限
✅平台后期会更新CHARLS综合性指标数据
✅提供1年期在线数据分析咨询

图片

购买方式




  • 可以添加下方助教微信咨询详情,或搜索微信号:aq566665

  • 可开技术服务费、培训费、咨询费等发票;可出具课程学习通知方便报销,可以对公转账。

图片

助教二维码,联系咨询

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐