gpt4 book ai didi

python - 基于距离矩阵的词聚类

转载 作者:IT老高 更新时间:2023-10-28 20:34:36 26 4
gpt4 key购买 nike

我的目标是根据单词与文本文档语料库的相似程度对单词进行聚类。我计算了每对单词之间的 Jaccard 相似度。换句话说,我有一个稀疏距离矩阵可用。谁能指出任何将距离矩阵作为输入的聚类算法(可能还有它在 Python 中的库)?我事先也不知道集群的数量。我只想对这些单词进行聚类,并获得哪些单词被聚类在一起。

最佳答案

您可以在 scikit-learn 中使用带有预先计算的距离矩阵的大多数算法。不幸的是,您需要许多算法的集群数量。 DBSCAN是唯一一个不需要簇数并且还使用任意距离矩阵的算法。你也可以试试MeanShift ,但这会将距离解释为坐标 - 这也可能有效。

还有affinity propagation ,但我还没有真正看到它运作良好。不过,如果您需要多个集群,这可能会有所帮助。

披露:我是 scikit-learn 核心开发人员。

关于python - 基于距离矩阵的词聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16246066/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com