- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我正在尝试在 Apache Nutch 中构建爬虫和抓取工具,以查找包含讨论特定单词主题(例如“选举”、“选举”、“投票”等)部分的所有页面。
一旦我进行了抓取,Nutch 就会清除 HTML 中的停用词和标签,但不会删除菜单语音(在网站的每个页面中都有)。因此,当您查找所有关于选举的页面时,您可能会检索到整个网站,因为它的菜单中有“选举”一词,因此在每个页面中都有。
我想知道是否存在分析网站的多个页面以了解页面的主要模板是什么的技术。有用的论文和/或实现/库。
我正在考虑创建某种 hadoop 作业来分析多个页面之间的相似性以提取模板。但是同一个网站可能有多个模板,因此很难找到一种有效的方法来做到这一点。
例如
网页 1:
MENU HOME VOTE ELECTION NEWS
meaningful text... elections ....
网页 2:
MENU HOME VOTE ELECTION NEWS
meaningful text... talking about swimming pools ....
最佳答案
您没有提到您使用的是 Nutch (1.x/2.x) 的哪个分支,但目前我可以想到几种方法:
看看NUTCH-585如果您没有抓取许多不同的网站,并且您可以指定要从索引内容中排除的 HTML 内容节点,这将很有帮助。
如果您使用的是不同的站点并且以前的方法不可行,请查看 NUTCH-961它使用 Apache Tika 中的样板功能来猜测 HTML 内容中哪些文本很重要。这个库使用了一些算法并提供了几个提取器,你可以尝试一下,看看什么对你有用。根据我的经验,我在新闻网站上遇到过一些问题,这些网站有很多评论,一些评论最终被单独与主要文章内容编入索引,但这毕竟是一个小问题。无论如何,这种方法在很多情况下都能很好地工作。
你也可以看看 NUTCH-1870它允许您指定 XPath 表达式以将网页的某些特定部分提取为单独的字段,在 Solr 中将其与正确的提升参数一起使用可以提高您的精度。
关于html - 刮刀 : distinguishing meaningful text from meaningless items, hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37332498/
我正在使用lxml.html模块 from lxml import html page = html.parse('http://directory.ccnecommunity.org/repor
我正在使用以下 python 脚本从亚马逊抓取信息 pages . 在某些时候,它停止返回页面结果。脚本正在启动,浏览关键字/页面,但我只得到标题作为输出: Keyword Rank Title AS
因此,我尝试使用 jsoup 来抓取 Reddit 中的图像,但是当我抓取某些子 Reddits(例如/r/wallpaper)时,我收到 429 错误,并且想知道如何解决此问题。完全理解这段代码很糟
我正在尝试在 Apache Nutch 中构建爬虫和抓取工具,以查找包含讨论特定单词主题(例如“选举”、“选举”、“投票”等)部分的所有页面。 一旦我进行了抓取,Nutch 就会清除 HTML 中的停
概念: 使用带有 Python 和 Selenium 的 AWS Lambda 函数,我想通过传递 headless chrome test 创建一个无法检测到的 headless chrome 刮板
我是一名优秀的程序员,十分优秀!