gpt4 book ai didi

python - 可能带有 python 绑定(bind)的大规模集群库

转载 作者:太空狗 更新时间:2023-10-29 22:05:04 25 4
gpt4 key购买 nike

我一直在尝试对一些更大的数据集进行聚类。由 50000 个维度为 7 的测量向量组成。我正在尝试生成大约 30 到 300 个集群以供进一步处理。

我一直在尝试以下集群实现,但没有成功:

  • Pycluster.kcluster(在我的数据集上只给出 1-2 个非空簇)
  • scipy.cluster.hierarchy.fclusterdata(运行时间过长)
  • scipy.cluster.vq.kmeans(内存不足)
  • sklearn.cluster.hierarchical.Ward(运行时间过长)

还有其他我可能会错过的实现吗?

最佳答案

50000 个实例和 7 个维度并不是很大,不应该扼杀一个实现。

虽然没有python绑定(bind),给ELKI一试。他们在主页上使用的基准集是 8 维的 110250 个实例,显然他们在 60 秒内对其运行 k-means,在 350 秒内运行更高级的 OPTICS。

避免层次聚类。它实际上只适用于小数据集。它通常在矩阵运算上实现的方式是O(n^3) ,这对于大型数据集来说真的很糟糕。所以我对这两个超时并不感到惊讶。

DBSCAN 和 OPTICS 在实现索引支持时是 O(n log n) .如果天真地实现,它们在 O(n^2) 中. K-means 确实很快,但往往结果不尽如人意(因为它总是在中间 split )。它应该在 O(n * k * iter) 中运行通常不会在太多迭代中收敛 ( iter<<100 )。但它只适用于欧几里德距离,并且不适用于某些数据(高维、离散、二元、不同大小的簇,...)

关于python - 可能带有 python 绑定(bind)的大规模集群库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11092589/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com