gpt4 book ai didi

python - 具有自定义指标的 DBSCAN

转载 作者:太空狗 更新时间:2023-10-29 20:21:00 25 4
gpt4 key购买 nike

我有以下内容:

  • 一个数以千计的数据集

  • 一种计算相似度的方法,但数据点本身我无法在欧几里德空间中绘制它们

我知道 DBSCAN 应该支持自定义距离度量,但我不知道如何使用它。

假设我有一个函数

def similarity(x,y):
return similarity ...

我有一个可以成对传递给该函数的数据列表,在使用 scikit-learn 的 DBSCAN 实现时如何指定它?

理想情况下,我想做的是获取集群列表,但我一开始不知道如何开始。

还有很多术语让我感到困惑:

http://scikit-learn.org/stable/modules/generated/sklearn.cluster.DBSCAN.html

我如何传递特征数组,它是什么?我如何使这个实现符合我的需要?我怎样才能从这个算法中得到我的“子列表”?

最佳答案

“特征数组”只是数据集中数据点特征的数组。

metric 是您要查找的参数。它可以是字符串(内置指标的名称)或 callable .您的 similarity 函数是可调用的。这在文档中没有很好地描述,但是一个指标必须做到这一点,将两个数据点作为参数,并返回一个数字。

def similarity(x, y):
return ...

reduced_dataset = sklearn.cluster.DBSCAN(metric=similarity).fit(dataset)

关于python - 具有自定义指标的 DBSCAN,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48767965/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com