gpt4 book ai didi

java - 基于关键字的最近邻算法或库

转载 作者:搜寻专家 更新时间:2023-10-31 20:30:42 27 4
gpt4 key购买 nike

我想找到一个库或算法(所以我自己写代码)来识别网页的最近 k 个邻居,其中网页被定义为一组关键字。我已经完成了提取关键字的部分。

不需要非常好,足够好即可。

任何人都可以提出解决方案,或者从哪里开始。我看过 Yury Lifshits 过去的讲座,但如果可能的话,我希望能得到一些现成的东西。

首选 Java 库。

最佳答案

如您所说,您已经从页面中提取了关键字。我假设您用单词 vector 表示每个文档/页面。类似 document term-frequency 的东西矩阵。

我想一个页面的最近邻居最好是具有相似内容的页面。因此,您希望找到每个词的相对频率与您要搜索的词相似的文档。因此,首先将文档术语矩阵 WRT 每一行归一化;即用 %tage 出现次数替换出现次数。

接下来,您必须在由这些 vector 表示的 2 个文档之间分配一些距离。您可以使用正常的 Euclidean distanceManhattan Distance .然而,对于文本文档,通常最有效的相似性度量是 Cosine Similarity .使用适合您的问题的任何距离或相似度函数(请记住,对于最近的邻居,您希望最小化距离;但最大化相似度)。

一旦你有了 vector 和你的距离函数,运行 Nearest neighbourK-Nearest neighbour算法。

关于java - 基于关键字的最近邻算法或库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6006606/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com