gpt4 book ai didi

machine-learning - 余弦相似度聚类

转载 作者:行者123 更新时间:2023-11-30 08:23:33 33 4
gpt4 key购买 nike

我有一个大型数据集,我想对其进行聚类。我的试运行集大小是 2,500 个对象;当我在“真正的交易”上运行它时,我将需要处理至少 20k 个对象。

这些对象之间具有余弦相似度。这种余弦相似度不满足作为数学距离度量的要求;不满足三角不等式。

我想以某种“自然”的方式对它们进行聚类,将相似的对象放在一起,而不需要事先指定我期望的聚类数量。

有人知道可以做到这一点的算法吗?实际上,我只是在寻找不需要 a) 距离度量和 b) 预先指定的簇数量的算法。

非常感谢!

这个问题之前已经在这里被问过: Clustering from the cosine similarity values(但该解决方案仅提供 K 均值聚类),这里: Effective clustering of a similarity matrix(但这个解决方案相当模糊)

最佳答案

Apache mahout 有许多聚类算法,包括一些不需要您指定 N 且允许您指定距离度量的算法。

均值漂移聚类与 k 均值类似,但没有预先指定的聚类数量 https://cwiki.apache.org/confluence/display/MAHOUT/Mean+Shift+Clustering .

更一般地说,如果您想尝试各种算法,R 有绝对丰富的复杂包可供使用(包括 EM 的一些变分贝叶斯实现,它将选择最佳数量的簇),这些已经证明对于我过去的一些研究非常有用:http://cran.r-project.org/web/views/Cluster.html .

关于machine-learning - 余弦相似度聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11150523/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com