python聚类分析自定义距离_python - 在sklearn中使用自定义距离度量进行聚类 - 堆栈内存溢出...

我转载了您的代码，但确实收到了您的错误。我在这里解释得更好：他具有一个vectorized_text变量( np.stack )，该变量模拟一个“热编码”功能集(仅包含0和1)。在DBSCAN模型中，他使用custom_metric函数来计算距离。可以预期的是，在运行模型时，自定义指标函数将观测对按原样作为参数对：一个热编码值，但是当在距离函数中打印这些值时，仅照原样取，正如他在问题中...

weixin_39950552

1025人浏览 · 2020-12-23 13:48:34

weixin_39950552 · 2020-12-23 13:48:34 发布

我转载了您的代码，但确实收到了您的错误。我在这里解释得更好：

他具有一个vectorized_text变量( np.stack )，该变量模拟一个“热编码”功能集(仅包含0和1)。在DBSCAN模型中，他使用custom_metric函数来计算距离。可以预期的是，在运行模型时，自定义指标函数将观测对按原样作为参数对：一个热编码值，但是当在距离函数中打印这些值时，仅照原样取，正如他在问题中所描述的，另一个似乎是一列实际价值：

x = [0.5 0.5 0.5 ... 0.5 0.5] y = [0. 0. 0. 1. 0. 0. ... 1. 0.]

无论如何，当我将列表传递给fit参数时，该函数将按原样获取值：

from sklearn.cluster import KMeans, DBSCAN, MeanShift

x = [1, 0, 1]

y = [0, 0, 1]

feature_set = [x*5]*5

def distance(x, y):

# Printing here the values. Should be 0s and 1s

print(x, y)

match_count = 0.

for xi, yi in zip(x, y):

if float(xi) == 1. and xi == yi:

match_count += 1

return match_count

def custom_metric(x, y):

# x, y are two vectors

# distance(.,.) calculates count of elements when both xi and yi are True

return distance(x, y)

dbscan = DBSCAN(min_samples=2, metric=custom_metric, eps=3, p=1).fit(feature_set)`

结果：

[1. 0. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1. 1. 0. 1.] ... [1. 0. 1. 1. 0.1. 1. 0. 1. 1. 0. 1. 1. 0. 1.]

我建议您使用pandas DataFrame或其他类型的值，并查看其是否有效。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r