gpt4 book ai didi

html - 刮刀 : distinguishing meaningful text from meaningless items, hadoop

转载 作者:可可西里 更新时间:2023-11-01 16:30:11 25 4
gpt4 key购买 nike

我正在尝试在 Apache Nutch 中构建爬虫和抓取工具,以查找包含讨论特定单词主题(例如“选举”、“选举”、“投票”等)部分的所有页面。

一旦我进行了抓取,Nutch 就会清除 HTML 中的停用词和标签,但不会删除菜单语音(在网站的每个页面中都有)。因此,当您查找所有关于选举的页面时,您可能会检索到整个网站,因为它的菜单中有“选举”一词,因此在每个页面中都有。

我想知道是否存在分析网站的多个页面以了解页面的主要模板是什么的技术。有用的论文和/或实现/库。

我正在考虑创建某种 hadoop 作业来分析多个页面之间的相似性以提取模板。但是同一个网站可能有多个模板,因此很难找到一种有效的方法来做到这一点。

例如

网页 1:

MENU HOME VOTE ELECTION NEWS

meaningful text... elections ....

网页 2:

MENU HOME VOTE ELECTION NEWS

meaningful text... talking about swimming pools ....

最佳答案

您没有提到您使用的是 Nutch (1.x/2.x) 的哪个分支,但目前我可以想到几种方法:

看看NUTCH-585如果您没有抓取许多不同的网站,并且您可以指定要从索引内容中排除的 HTML 内容节点,这将很有帮助。

如果您使用的是不同的站点并且以前的方法不可行,请查看 NUTCH-961它使用 Apache Tika 中的样板功能来猜测 HTML 内容中哪些文本很重要。这个库使用了一些算法并提供了几个提取器,你可以尝试一下,看看什么对你有用。根据我的经验,我在新闻网站上遇到过一些问题,这些网站有很多评论,一些评论最终被单独与主要文章内容编入索引,但这毕竟是一个小问题。无论如何,这种方法在很多情况下都能很好地工作。

你也可以看看 NUTCH-1870它允许您指定 XPath 表达式以将网页的某些特定部分提取为单独的字段,在 Solr 中将其与正确的提升参数一起使用可以提高您的精度。

关于html - 刮刀 : distinguishing meaningful text from meaningless items, hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37332498/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com