gpt4 book ai didi

python - DBSCAN sklearn 非常慢

转载 作者:行者123 更新时间:2023-11-30 09:05:48 26 4
gpt4 key购买 nike

我正在尝试对包含超过 100 万个数据点的数据集进行聚类。一列包含文本,另一列包含与其对应的数值。我面临的问题是它被卡住并且永远不会完成。我尝试过处理大约 100,000 个较小的数据集,它运行得相当快,但当我开始增加数据点时,它开始变慢,对于 100 万个数据点,它永远不会完成并挂起。最初,我认为这可能是因为我有一个用于文本的 tfidf 矩阵,并且有 100 个维度,因此需要很长时间。然后我尝试根据每个数据点的单个值的数量进行聚类,但它仍然没有完成。下面是代码片段。知道我可能做错了什么吗?我见过有人使用更大的数据集并且没有出现任何问题。

Y=data['amount'].values
Y=Y.reshape(-1,1)
dbscan = DBSCAN(eps=0.3, min_samples= 10, algorithm='kd_tree')
dbscan.fit_predict(Y)
labels = dbscan.labels_
print(labels.size)
clusters = labels.tolist()
#printing the value and its label
for a, b in zip(labels, Y):
print(a, b)

最佳答案

很可能您的 epsilon 太大。

如果大多数点都在大多数其他点的 epsilon 范围内,则运行时间将为 O(n²) 的二次方。因此,从值开始!

您不能只添加/删除功能而让 epsilon 保持不变。

关于python - DBSCAN sklearn 非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52560683/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com