gpt4 book ai didi

java - vector 的余弦相似度,复杂度 < O(n^2)

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:31:18 25 4
gpt4 key购买 nike

在查看此站点的类似问题后,我发现了这个:http://math.nist.gov/javanumerics/jama/还有这个:http://sujitpal.blogspot.com/2008/09/ir-math-with-java-similarity-measures.html

但是,这些似乎在 O(n^2) 中运行。我一直在做一些文档聚类,并注意到在处理即使是小文档集时,这种复杂程度也是不可行的。给定,对于点积,我们只需要包含在两个 vector 中的 vector 项,应该可以将 vector 放在树中,从而计算复杂度为 n log n 的点积,其中 n 是唯一项的最少数量2 份文件中的 1 份。

我错过了什么吗?是否有执行此操作的 Java 库?

谢谢

最佳答案

如果将 vector 元素存储在哈希表中,无论如何查找都只是 log n,不是吗?遍历较小文档中的所有键并查看它们是否存在于较大文档中..?

关于java - vector 的余弦相似度,复杂度 < O(n^2),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3346477/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com