- 点击上方“中国统计网”订阅我吧!-7ae6356e56c35690da416db9cff7f1b2.gif

文末领取医疗行业报告

今天想写一下聚类分析方法之一:K—Mean聚类法

01聚类分析模型简介

(1)聚类分析没有过多的统计理论支持,也没有统计检验对聚类结果的正确性“负责”,仅仅按照所定义的距离将数据归类而已。

02聚类分析入门

聚类分析实质就是按照距离的远近将数据分为若干个类别,以使得类别内数据的“差异”尽可能小,类别间“差异”尽可能大。

1. 所用的变量类型:一类是分类变量;一类是连续变量。连续变量一般使用欧式平方距离,分类变量使用卡方作为距离指标。

2. 多数传统聚类方法只能使用单一种类的变量进行分析,如果数据中同时有连续和分类两类变量,由于连续变量携带信息量远多于分类变量,可考虑或者只采用连续变量进行分析,将分类变量用于结果的描述和验证;或者将分类变量按照哑变量的方式拆分多个二分类变量,然后按照连续变量的方式进行分析。但多采用智能聚类方法,如两步聚类法。

3. 聚类方法:大致分为两类:层次聚类法、非层次聚类法

4. 距离的定义:SPSS中最常用的距离定义为欧式几里得距离。

7e6cdcd8-fb2b-eb11-8da9-e4434bdf6706.svg

 
5. 数据的标准化问题:各变量数量级相差较大,要对数据进行标准化,使不同数量级的数据之间可以比较。标准化方式有:标准正态分布、或把数据变换为范围在0-1之间的数据。

03聚类分析的方法体系

1. 非层次聚类法:将案例快速分成K个类别,一般而言具体的类别个数需要在分析前就加以确定,整个分析过程使用迭代的方式进行。其中K—均值聚类法最为常用,也称为快速聚类法(不能自动标准化,需要人为手动处理)。


2. 层次聚类法:首先确定距离的基本定义,以及类间距离的计算方式,随后按照距离的远近通过把距离较近的数据依次并入一类,直到数据完全归为一个类别为止。—“树状图”来表示聚类结果。


3. 智能聚类方法:针对海量数据以及距离指标往往不能满足需求的情况,发展出智能聚类方法,常用:两步聚类法,最近邻元素法,和神经网络中的自组织图。

07k-均值聚类法(快速聚类法)

方法原理:可用于大量数据进行聚类分析的情形。

1. 确定聚类的类别数量,分析者指定,可反复尝试并得到一个合理的最优方案;

2. 指定聚类中心,初步确认每个类别的原始中心点;

3. 逐一计算各案例到各个类别中心的距离,按照距离最近的原则归入各个类别,并计算各类别的新中心点;

4. 按照新中心位置,重新计算各案例距离新的类别中心的距离,并重新进行归类、更新类别中心点;

5. 重复迭代,直到满足一定的收敛标准或者达到事先指定的迭代次数为止。

05适用条件

k-均值聚类法使用范围有限:要求事先知道需要将样品分为多少类;只能对案例进行聚类而不能对变量聚类;所使用的变量必须是连续性变量,且对变量的多元正态性、方差齐性等条件要求较高

06案例:移动通信客户细分

1. 预分析:

将数据标准化:“分析”——“描述统计”——“描述”

6a2f72d6a3e278065ce91a6f85513a33.png

2. 操作说明:“分析”——“降维”——“k平均值聚类分析”

d6e93c47558de38c14675b93facfbe6f.png

将标化后的案例选入变量中,选择customer id作为标记个案,聚类数输入5,

迭代次数输入200

46b164adcffcc77e4e7db490ffb9a4dd.png

“保存”中确认保存聚类成员

84b446fe137cc34237d3604182a51b70.png

“选项”中选择“ANOVA表”复选框

ab86e46e9e3b4667cec8ca7042ba82a3.png
注意:初始聚类中心有K-Means过程自动进行计算,也可以导入指定文件读入。

结果解释:

1. 初始聚类中心:spss自动完成,原则是使得各初始类中心的散点在所有变量构成的空间中离的尽可能远,而且尽量广的分布在空间中

310cc6488cfa439d903184488ab4070b.png

2. 迭代历史记录

32fed2df50702d2b48a5c5426ea06d71.png

我删除中间迭代点,可看出类别中心点变化越来越小,直到趋近0,迭代35补终止

3. 方差ANOVA的结果:

8df0a37ba6e34a3658cf5217d33ae198.png
8df0a37ba6e34a3658cf5217d33ae198.png

按照类别分组后,对所有变量一次进行单因素方差分析,然后汇总在一张表格中。并根据F值近似得到那个变量在聚类分析中的作用更大的结论。

各变量对聚类结果的重要程度排序为:总通话时长>工作日上班时期电话时长>工作日下班时期电话时长>平均每次通话时长>国际电话时长>周末电话时长。

4. 每个聚类中的个案数量:

6cbf68f0db0028a2a1db47155358fbcd.png

“保存”了聚类成员。自动生成变量“QCL-1”存储各案例被归入的类别号,以便后续分析。

End.

来源:知乎

你可能错过的往期内容

dea8ff67e5505287c89b18ab65f8642e.png

2018-2019医疗行业数据报告

关注领取哦~!

549ad74941f49884d5321c14ed87be3a.png

我就知道你“在看7c5e10070f1b09b2f4e6520fffd82087.gif
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐