gpt4 book ai didi

java - 计算 Lucene 文档之间的相似度和质心

转载 作者:行者123 更新时间:2023-11-30 11:57:58 25 4
gpt4 key购买 nike

为了对我从 Lucene 获得的结果执行简单的聚类算法,我必须计算 Lucene 中 2 个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个聚类的质心。

我能想到的就是构建我自己的具有 tf-idf 权重的 vector 空间模型,使用 TermFreqVectors 和 Overall Term frequency 来填充它。

我的问题是:这不是一种有效的方法,是否有更好的方法来做到这一点?

这感觉有点不清楚,因此也感谢任何关于如何改进我的问题的建议。

最佳答案

关于java - 计算 Lucene 文档之间的相似度和质心,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3447175/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com