机器学习——无监督学习(k-means算法)

深栈

2001人浏览 · 2024-07-06 19:10:32

深栈 · 2024-07-06 19:10:32 发布

1、K-Means聚类算法

K表示超参数个数，如分成几个类别，K值就取多少。若无需求，可使用网格搜索找到最佳的K。
步骤：
1、随机设置K个特征空间内的点作为初始聚类中心；
2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记种类；
3、接着对标记的聚类中心之后，重新计算出每个聚类的中心点(平均值)；
4、如果计算得出的新中心点与原中心点一样，那么结束，否则执行第二步。
means表示寻找新的聚类中心点是采用特征平均值确定。

2、K-means图解

具体演示视频可查看(B站UP主：KnowingAI知智)
若我们手上有一些水果，我们希望对它们进行分类，假设分为两类，则此时K=2。
step1:随机选取两个样本点作为聚类中心点centrol
在这里插入图片描述

step2:计算其他每个样本与聚类中心centrol的距离，距离谁近就归为哪类，一般采用欧氏距离。
在这里插入图片描述

step3:根据已分类的结果，重新计算聚类中心，聚类中心是已分类的所有样本的平均值(means)

在这里插入图片描述
然后重复之前的步骤，重新计算距离进行划分，直到某一次计算聚类中心点和上次相同，则聚类结束。

3、聚类算法优缺点分析

聚类算法不需要手动设置标签，故属于无监督学习，相比于监督学习，它更加简单、易于理解，但是准确率方面不如监督学习。

4、K-Means()算法实现案例

API调用：

API:sklearn.cluster.KMeans(n_clusters=8, init='k=means++')
n_cluster:初始聚类中心数量，即K值

from sklearn.cluster import KMeans
import numpy as np
import matplotlib.pyplot as plt
# 生成示例数据，100个二维数据，横坐标纵坐标都在0-1范围内
X = np.random.rand(100, 2)
# 创建K-means模型
kmeans = KMeans(n_clusters=3)
# 训练模型
kmeans.fit(X)
# 获取聚类结果
labels = kmeans.labels_
# 获取每个数据点的簇标签。labels_是一个数组，表示每个数据点所属的簇的索引。
centroids = kmeans.cluster_centers_
# 获取每个簇的质心坐标。cluster_centers_是一个形状为(n_clusters, n_features)的数组，表示每个簇的质心位置。
# 可视化结果
plt.scatter(X[:, 0], X[:, 1], c=labels, cmap='viridis')
plt.scatter(centroids[:, 0], centroids[:, 1], s=300, c='red', marker='x')
plt.show()

在这里插入图片描述

5、聚类效果的评估(轮廓系数评估法）

内部距离最小化，外部距离最大化
轮廓系数： $SCi=bi−aimax(bi,ai)SCi=\frac{b_i-a_i}{max(b_i,a_i)}$
$b_i$ :一个簇内某个样本到其他簇的所有样本距离的最小值
$a_i$ :一个簇内某个样本到本身簇内所有样本距离的平均值
$b_i>>a_i$ 此时 $SC i \approx 1$ 效果好
$b_i<<a_i$ 此时 $SC i \approx - 1$ 效果差
轮廓系数取值范围在 $(- 1, 1)$ ，越接近 $1$ ，聚类效果越好，越接近 $- 1$ ，聚类效果越差

from sklearn.metrics import silhouette_score  #计算轮廓系数，传入样本点和分类标签

如上例中，加上如下代码

from sklearn.metrics import silhouette_score
score = silhouette_score(X,labels)
print(f"轮廓系数为{score}")

轮廓系数为0.3873688462341751，分类效果一般。可以加一个循环找到一定范围内最优的K值，此处用轮廓系数衡量

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import numpy as np
import matplotlib.pyplot as plt
# 生成示例数据，100个二维数据，横坐标纵坐标都在0-1范围内
X = np.random.rand(100, 2)
# 创建K-means模型
best_score=0
for k in range(2,11):
    kmeans = KMeans(n_clusters=k)
    # 训练模型
    kmeans.fit(X)
    # 获取聚类结果
    labels = kmeans.labels_
    # 获取每个数据点的簇标签。labels_是一个数组，表示每个数据点所属的簇的索引。
    centroids = kmeans.cluster_centers_
    score = silhouette_score(X,labels)
    if score > best_score:
        best_score = score
        best_k = k
print(f'最佳簇数: {best_k}, 轮廓系数: {best_score}')
# 最佳簇数: 4, 轮廓系数: 0.42684837185343705

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模