【保姆级实操】从0到1掌握CHARLS队列数据聚类分析，终于有人讲明白了！

聚类分析的目标是根据这些变量的取值，将数据划分为不同的类别，使得同一类别内的数据具有较高的相似性，而不同类别之间的数据具有较大的差异性。因此，本文将以CHARLS 2011~2015年的TyG作为暴露，心血管疾病作为结局，探究TyG与结局之间的关联。答：不同类型的数据才需要用到标准化比如我选择了体重和身高作为聚类，这是两种变量，那我就需要进行标准化。关于平台提取数据的操作，各位可以看教学视频，这

陈如程

731人浏览 · 2026-01-09 23:00:00

陈如程 · 2026-01-09 23:00:00 发布

近日，CHARLS整理分析平台正式上线了聚类分析，今天给大家详细说明一下如何进行聚类分析。

在开始研究前，我们需要重点明确什么是聚类变量：

聚类变量是指在聚类分析中用于对数据进行分类的特征或指标。这些变量可以是连续变量（如身高），也可以是分类变量（如性别）。
聚类分析的目标是根据这些变量的取值，将数据划分为不同的类别，使得同一类别内的数据具有较高的相似性，而不同类别之间的数据具有较大的差异性。

明确完聚类变量后，接下来按照操作流程进行即可。

一.CHARLS提取平台——提取数据

1.获取宽数据

关于平台提取数据的操作，各位可以看教学视频，这里就不细说了。正常提取指标数据即可

CHARLS数据库独有的2011和2015年两个波次的血检数据，很适合做聚类分析。

因此，本文将以CHARLS 2011~2015年的TyG作为暴露，心血管疾病作为结局，探究TyG与结局之间的关联。

2.进行纳排

这里纳排标准为保证参与者均具有最关键的变量——完整的TyG数据。

大家实际研究时，请根据自己的研究思路进一步添加纳排标准

3.下载纳排后数据

二、申请原始数据

[重点] 后续分析需要用到原始数据，所以请先申请原始数据，具体的申请标准群内都有说明哦~

请注意申请格式须为宽数据！！！

三、聚类网页应用

1、打开网页

打开提供的聚类代码（和轨迹同一个代码），运行到最后一步，跳转到网页版的聚类分析

2、数据准备

导入原始的宽数据

3.变量定义

需将纳入聚类的变量设为定量变量数值型

由于2013年没有TyG数据，这里的聚类变量就是TyG2011和TyG2015年。

ps：别管原数据多少，在聚类分析时我们只需要关注聚类变量即可。

4.最佳聚类选择

在该模块我们最重要的目的是得出最佳聚类数！

👀问题1.标准化聚类变量是否勾选？

答：不同类型的数据才需要用到标准化比如我选择了体重和身高作为聚类，这是两种变量，那我就需要进行标准化。

但如果我选取的是体重的不同年份数据，那就不需要勾选。

以本文的TyG数据为例，则不需要勾选。

👀问题2.起始值确定方法如何选择？适用场景是什么？

1. k-means++（最常用、推荐）

绝大多数情况下的首选，尤其是k较大、数据分布不均匀时。

2. random（完全随机）

数据量极大，对速度极度敏感
数据分布非常均匀时可能还行

3. quantile_init（分位数初始化）

低维数据（d ≤ 3）
需要可重复的结果
数据大致呈均匀分布或已知分布

4. optimal_init（最优初始化）

对聚类质量要求极高
数据量不大，可承受更高计算成本

👀问题3.最佳聚类绘图方法如何选取？

平台共提供5种绘图方法：簇内平方和、轮廓系数、AIC、BIC、调整R方

最佳聚类选择没有金标准，大家在判断时可以综合这几种方式选择。

建议至少结合簇内平方和＋轮廓系数进行选择！

‼️究竟如何选择最佳聚类数？

选择最佳聚类数的核心是 在模型的“复杂度”（聚类数K）和“拟合度/解释能力”之间找到最佳平衡点。

这里对平台包含的常用方法进行解释：

1. 簇内平方和

原理：计算不同K值下的总簇内平方和。随着K增加，每个簇更小、更紧凑，SSE必然会下降。目标是找到SSE下降速度突然变缓的那个“拐点”，形如手肘。

选取原则：寻找曲线从“陡峭”变为“平缓”的转折点。该点对应的K值通常被认为是较好的选择。

2. 轮廓系数

原理：综合衡量一个样本与其所属簇的相似度（凝聚度a）和与其他最近簇的相似度（分离度b）。

选取原则：绘制不同K值对应的平均轮廓系数图，选择系数最大的K。

3. 信息准则：AIC 与 BIC

原理：在基于概率的聚类模型（如高斯混合模型GMM）中，它们衡量模型的似然拟合优度，同时对模型复杂度（参数数量，与K正相关）进行惩罚。

如果使用GMM，则计算AIC/BIC。

选取原则：拟合不同K值的模型，计算AIC和BIC，选择值最小的K。

在本文的最佳聚类选择中，簇内平方和提示2/3分类，轮廓系数法提示2更好。因此，综合选择2作为最佳聚类。

5.聚类分析⭐

ID变量即为受访者编码
聚类变量、起始值确定方法与上一步中的最佳聚类选择保持一致。
更改最佳聚类数为刚刚确认的数值。
导出聚类结果：即可得到各ID的聚类分组——Cluster_Group。

6.聚类可视化⭐

为方便大家理解，我们以一篇一区Top文章（PMID: 40355933）中涉及的聚类结果图为例，进行讲解。

A为最佳聚类数选择结果图；B为散点图；C为均值折线图

平台包含的绘图类型共有三种：

💠绘图类型1：散点图

需注意：散点图变量选择为两个！！！

💠绘图类型2：均值折线图

ps：如果想要完全实现参考文献中横坐标的TyG_2011改名为2011，只需在数据集中更改变量名即可实现。

💠绘图类型3：密度图

可以查看单一数据的分布情况。

图表的各种设置，大家可以多多摸索一下，帮您做出更加精美的图形。

各种设置完成后，点击底部的“导出聚类图形”即可。

四、统计分析

将保存的宽数据在分析平台进行常规的统计分析即可。

1.导入刚刚在聚类分析步骤导出的聚类结果（此为原始宽数据无需在平台解码）

2.统计分析

以cox回归为例，将暴露因素选为Cluster_Group，即可探究不同聚类与结局之间的关联。

其余回归分析原理相同。

以上就是对于CHARLS平台进行聚类分析的使用教程。感兴趣的朋友欢迎联系我们~

[注] 我们的CHARLS平台持续更新中，不断丰富指标与功能！有需求的朋友欢迎向我们提供建议，争取为你打造最全面且权威的一站式科研分析平台。

费用与服务

费用：

CHARLS整理分析平台：2000元/年

（有购买郑老师其他课程的学员享9折优惠）

相关服务：

✅买1年送1年，共2年的平台使用权限
✅平台后期会更新CHARLS综合性指标数据
✅提供1年期在线数据分析咨询

购买方式

可以添加下方助教微信咨询详情，或搜索微信号：aq566665。

可开技术服务费、培训费、咨询费等发票；可出具课程学习通知方便报销，可以对公转账。

助教二维码，联系咨询

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda