gpt4 book ai didi

python - 给定具有(tf-idf 余弦相似度、doc_id1、doc_id2)的 CSV 的 K 均值聚类?

转载 作者:太空宇宙 更新时间:2023-11-03 14:53:57 25 4
gpt4 key购买 nike

我有一个包含以下数据集的 CSV:

similarity  | doc_id1   | doc_id2
1 | 34 | 0
1 | 29 | 6
0.997801748 | 22 | 10
0.966014701 | 35 | 16
0.964811948 | 14 | 13

其中“相似度”指的是 tf-idf 余弦相似度计算的值,doc_ids 指的是文档。因此,相似度越接近 1,两个文档就越相似。

我想根据此信息对文档进行聚类,但我不完全确定如何执行此操作。我已经阅读了很多有关球形 K 均值聚类的内容,但在实现它方面我很难理解它。有一个可能有用的库吗? K-means 是正确的方法吗?

编辑:这个 CSV 就是我所拥有的全部,所以即使我希望有基于词频的向量,但我没有。如果 K-means 不起作用,因为我所拥有的只是相似性,那么还有其他算法适合这些数据吗?

最佳答案

我相信你的问题是你有距离,但 K-Means 使用距质心的欧几里德距离。这意味着,每个文档都需要一个向量,在您的情况下,向量相当长。您应该对所有单词使用一个维度,而不是计算相似度,并且每个文档中该单词的分数将成为它们的坐标。有了这些向量,您可以使用 Sam B 建议的 sklearn.cluster.KMeans。

关于python - 给定具有(tf-idf 余弦相似度、doc_id1、doc_id2)的 CSV 的 K 均值聚类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45721086/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com