Scikit-Learn 1.4使用指南：有监督学习最近邻算法 Nearest Neighbors

sklearn.neighbors 提供了无监督和有监督的基于最近邻的学习方法。无监督最近邻是许多其他学习方法的基础，尤其是流形学习和谱聚类。有监督的基于最近邻的学习有两种类型：分类适用于具有离散标签的数据，回归适用于具有连续标签的数据。最近邻方法的原理是找到与新点距离最近的预定义数量的训练样本，并根据这些样本预测标签。样本数量可以是用户定义的常数（k最近邻学习），也可以根据点的局部密度变化（基于

愤斗的橘子

1531人浏览 · 2024-02-04 17:15:21

愤斗的橘子 · 2024-02-04 17:15:21 发布

杰克·范德普拉斯 < vanderplas@astro.washington.edu>

sklearn.neighbors

sklearn.neighbors 提供了无监督和有监督的基于最近邻的学习方法。无监督最近邻是许多其他学习方法的基础，尤其是流形学习和谱聚类。有监督的基于最近邻的学习有两种类型：分类适用于具有离散标签的数据，回归适用于具有连续标签的数据。

最近邻方法的原理是找到与新点距离最近的预定义数量的训练样本，并根据这些样本预测标签。样本数量可以是用户定义的常数（k最近邻学习），也可以根据点的局部密度变化（基于半径的最近邻学习）。距离通常可以是任何度量标准：标准的欧氏距离是最常见的选择。基于最近邻的方法被称为非泛化机器学习方法，因为它们只是“记住”所有的训练数据（可能转换为快速索引结构，如Ball Tree <ball_tree>或KD Tree <kd_tree>）。

尽管最近邻方法很简单，但在许多分类和回归问题中都取得了成功，包括手写数字和卫星图像场景。作为一种非参数方法，它通常在决策边界非常不规则的分类情况下取得成功。

sklearn.neighbors中的类可以处理NumPy数组或scipy.sparse矩阵作为输入。对于密集矩阵，支持大量可能的距离度量标准。对于稀疏矩阵，支持任意的闵可夫斯基距离度量标准进行搜索。

许多学习例程都依赖于最近邻算法。一个例子是kernel density estimation <kernel_density>，在density estimation <density_estimation>部分讨论。

无监督最近邻

NearestNeighbors实现了无监督最近邻学习。它作为三种不同最近邻算法（BallTree，KDTree和基于sklearn.metrics.pairwise中的例程的暴力算法）的统一接口。通过关键字'algorithm'来控制邻居搜索算法的选择，它必须是['auto', 'ball_tree', 'kd_tree', 'brute']中的一个。当传递默认值'auto'时，算法会尝试从训练数据中确定最佳方法。有关每个选项的优点和缺点的讨论，请参见最近邻算法。

[!WARNING]
关于最近邻算法，如果两个邻居 $k + 1$ 和 $k$ 具有相同的距离但标签不同，则结果将取决于训练数据的排序。

查找最近邻

对于在两组数据之间查找最近邻的简单任务，可以使用sklearn.neighbors中的无监督算法：

>>> from sklearn.neighbors import NearestNeighbors
>>> import numpy as np
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
>>> distances, indices = nbrs.kneighbors(X)
>>> indices
array([[0, 1],
       [1, 0],
       [2, 1],
       [3, 4],
       [4, 3],
       [5, 4]]...)
>>> distances
array([[0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.41421356],
       [0.        , 1.        ],
       [0.        , 1.        ],
       [0.        , 1.41421356]])

因为查询集与训练集匹配，所以每个点的最近邻是它自己，距离为零。

还可以高效地生成显示相邻点之间连接的稀疏图：

>>> nbrs.kneighbors_graph(X).toarray()
array([[1., 1., 0., 0., 0., 0.],
       [1., 1., 0., 0., 0., 0.],
       [0., 1., 1., 0., 0., 0.],
       [0., 0., 0., 1., 1., 0.],
       [0., 0., 0., 1., 1., 0.],
       [0., 0., 0., 0., 1., 1.]])

数据集的结构使得在索引顺序上相邻的点在参数空间中也是相邻的，从而导致一个近似的块对角线矩阵的K最近邻。这样的稀疏图在许多情况下都很有用，这些情况利用了点之间的空间关系进行无监督学习：特别是，请参见~sklearn.manifold.Isomap，~sklearn.manifold.LocallyLinearEmbedding和~sklearn.cluster.SpectralClustering。

KDTree和BallTree类

另外，可以直接使用KDTree或BallTree类来查找最近邻。这是上面使用的NearestNeighbors类包装的功能。Ball Tree和KD Tree具有相同的接口；这里我们将展示使用KD Tree的示例：

>>> from sklearn.neighbors import KDTree
>>> import numpy as np
>>> X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
>>> kdt = KDTree(X, leaf_size=30, metric='euclidean')
>>> kdt.query(X, k=2, return_distance=False)
array([[0, 1],
       [1, 0],
       [2, 1],
       [3, 4],
       [4, 3],
       [5, 4]]...)

有关最近邻搜索的选项的更多信息，请参见KDTree和BallTree类的文档，包括查询策略、距离度量等的指定。要获取有效度量的列表，请使用KDTree.valid_metrics和BallTree.valid_metrics：

>>> from sklearn.neighbors import KDTree, BallTree
>>> KDTree.valid_metrics
['euclidean', 'l2', 'minkowski', 'p', 'manhattan', 'cityblock', 'l1', 'chebyshev', 'infinity']
>>> BallTree.valid_metrics
['euclidean', 'l2', 'minkowski', 'p', 'manhattan', 'cityblock', 'l1', 'chebyshev', 'infinity', 'seuclidean', 'mahalanobis', 'hamming', 'canberra', 'braycurtis', 'jaccard', 'dice', 'rogerstanimoto', 'russellrao', 'sokalmichener', 'sokalsneath', 'haversine', 'pyfunc']

数学公式

NCA 的目标是学习一个最优的线性变换矩阵，大小为 (n_components, n_features)，它最大化了所有样本 $i$ 的概率 $p_i$ ，即 $i$ 被正确分类的概率，即：

$\underset{L}{\arg\max} \sum\limits_{i=0}^{N - 1} p_{i}$
$p_{i}=\sum\limits_{j \in C_i}{p_{i j}}$

其中 $C_i$ 是与样本 $i$ 属于同一类的点的集合， $p_{i j}$ 是嵌入空间中欧氏距离的 softmax：

$p_{i j} = \frac{\exp(-||L x_i - L x_j||^2)}{\sum\limits_{k \ne i} {\exp{-(||L x_i - L x_k||^2)}}} , \quad p_{i i} = 0$

马氏距离

NCA 可以看作是学习一个（平方的）马氏距离度量：

$L(x_i - x_j)||^2 = (x_i - x_j)^TM(x_i - x_j),$

其中 $M = L^T L$ 是一个大小为 (n_features, n_features) 的对称正半定矩阵。

实现

这个实现遵循原始论文中的解释。对于优化方法，它目前使用 scipy 的 L-BFGS-B 方法，在每次迭代时进行完整的梯度计算，以避免调整学习率并提供稳定的学习。

请参阅下面的示例和 NeighborhoodComponentsAnalysis.fit 的文档字符串以获取更多信息。

复杂度

训练

NCA 存储了一个成对距离矩阵，占用 n_samples ** 2 的内存。时间复杂度取决于优化算法的迭代次数。但是，可以使用参数 max_iter 设置最大迭代次数。对于每次迭代，时间复杂度为 O(n_components x n_samples x min(n_samples, n_features))。

转换

这里的 transform 操作返回 $LX^T$ ，因此其时间复杂度为 n_components * n_features * n_samples_test。操作中没有额外的空间复杂度。

参考文献：

维基百科关于邻域成分分析（Neighborhood Components Analysis）的条目

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

愤斗的橘子

@wjjc1017

已为社区贡献31条内容

Scikit-Learn 1.4使用指南：有监督学习最近邻算法 Nearest Neighbors

愤斗的橘子

文章目录

无监督最近邻

查找最近邻

KDTree和BallTree类

最近邻分类

最近邻回归

最近邻算法

暴力搜索

K-D 树

Ball 树

最近邻算法的选择

`leaf_size`的影响

最近邻算法的有效度量

最近质心分类器

最近缩小质心

最近邻转换器

邻域成分分析

分类

降维

数学公式

马氏距离

实现

复杂度

训练

转换

所有评论(0)

愤斗的橘子

Scikit-Learn 1.4使用指南：有监督学习 最近邻算法 Nearest Neighbors

愤斗的橘子

文章目录

无监督最近邻

查找最近邻

KDTree和BallTree类

最近邻分类

最近邻回归

最近邻算法

暴力搜索

K-D 树

Ball 树

最近邻算法的选择

leaf_size的影响

最近邻算法的有效度量

最近质心分类器

最近缩小质心

最近邻转换器

邻域成分分析

分类

降维

数学公式

马氏距离

实现

复杂度

训练

转换

所有评论(0)

愤斗的橘子

Scikit-Learn 1.4使用指南：有监督学习最近邻算法 Nearest Neighbors

`leaf_size`的影响