gpt4 book ai didi

java - 如何构建算法以根据关键字对 HTML 页面进行分类?

转载 作者:搜寻专家 更新时间:2023-11-01 01:56:42 25 4
gpt4 key购买 nike

我正在尝试创建一种算法,根据在网页上找到的关键字设置与网页的相关性。

我现在正在这样做:

我为它们设置了一些词和一个值:“电影”(10)“电影院”(6)“ Actor ”(5) “hollywood”(4) 并搜索页面的某些部分,为每个部分赋予权重并乘以单词权重。

示例:在URL(1.5) * 10 和标题(2.5) * 10 中找到了“电影”字词 = 40

这是垃圾!这是我的第一次尝试,它返回了一些相关结果,但我认为由 244、66、30、15 这样的值确定的相关性没有用。

我想做一些在范围内的事情,从 0 到 1 或 1 到 100。
我可以使用哪种类型的词权重?

除主要内容外,还有现成的算法可以根据 URL、关键字、标题等设置 HTML 页面的相关性吗?

编辑 1:所有这些都可以重建,权重是随机的,我想使用一些简洁的权重,而不是 ramdon 数字来表示权重,如 10、5 和 3。

类似于:低重要性 = 1中等重要性 = 2高重要性 = 4确定性重要性 = 8.

Title > URL 的链接部分 > Domain > Keywords
movie > cinema> actor > 好莱坞

编辑 2: 目前,我想分析不包括页面的 body content 的单词的页面相关性。我将在分析中包括域、url 的链接部分、标题、关键字(以及我认为有用的其他元信息)。

这是因为HTML内容脏了。我可以在菜单和广告中找到很多像“电影”这样的词,但页面的主要内容不包含任何与主题相关的内容。

另一个原因是有些页面有元信息表明页面包含有关电影的信息,但主要内容没有。示例:包含讲述历史、人物等的电影情节的页面,但不要在该文本中引用任何可以表明这是关于电影的内容,仅引用页面元信息。

稍后,在对 HTML 页面运行相关性分析后,我将分别对内容(过滤)进行相关性分析。

最佳答案

您能否在搜索引擎中为这些文档编制索引?如果你是那么也许你应该考虑使用这个 latent semantic library .

您可以从这里获取实际项目:https://github.com/algoriffic/lsa4solr

您要做的是确定文本语料库的含义,并根据其含义对其进行分类。然而,单词并不是单独唯一的,也不是从整篇文章中抽象出来的。

例如,假设您有一篇文章大量谈论“Windows”。这个词在一篇 300 字的文章中出现了 7 次。所以你知道这很重要。但是,您不知道的是,它是在谈论操作系统“Windows”还是您浏览的东西。

然后假设您还看到诸如“安装”之类的词,嗯,这对您也没有任何帮助。因为人们在家里安装 window 就像安装 Windows 操作系统一样。但是,如果同一篇文章谈论碎片整理、操作系统、命令行和 Windows 7,那么您可以猜到该文档的含义实际上是关于 Windows 操作系统的。

但是,您如何确定这一点?

这就是 Latent Semantic Indexing 的用武之地。您要做的是提取整个文档文本,然后对该文档应用一些巧妙的分析。

您构建的矩阵 (see here) 超出了我的理解范围,尽管我已经查看并使用了一些库,但我一直无法完全理解构建空间背后的复杂数学潜在语义分析未使用的感知矩阵......所以在我的建议中,我建议,只需使用一个已经存在的库来为你做这件事。

如果您不是在寻找外部库而是想自己做,很高兴删除这个答案

关于java - 如何构建算法以根据关键字对 HTML 页面进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7286670/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com