gpt4 book ai didi

java - 如何使用Nutch抓取并解析精确的数据?

转载 作者:行者123 更新时间:2023-11-30 07:55:20 24 4
gpt4 key购买 nike

我是 Nutch 和爬行新手。我已经安装了 Nutch 2.0,并按照一些基本教程使用 Solr 4.5 对数据进行爬网和索引。现在我不想解析页面的所有文本内容,我想自定义它,就像 Nutch 应该抓取页面并仅抓取/获取与地址相关的数据,因为我的用例是抓取 URL 并仅解析地址信息作为文本。

例如,我只需要抓取并解析包含地址信息、电子邮件 ID、电话号码和传真号码的文本内容。

  1. 我应该怎么做?有没有可用的插件?
  2. 如果我想为此编写一个自定义解析器,任何人都可以在这方面帮助我吗?

最佳答案

结账 NUTCH-1870 Nutch 的通用 XPath 插件正在进行中,替代方案是编写一个自定义 HtmlParseFilter 来废弃您想要的数据。一个很好(而且简单)的例子是 headings插入。请记住,这两个链接均适用于 Nutch 的 1.x 分支,并且您正在使用 2.x,尽管情况在某种程度上有所不同,但逻辑应该是可移植的,另一种选择是使用 1.x分支。

根据您的评论:

由于您不知道网页的结构,因此问题有所不同:本质上您需要“教”Nutch 如何基于某些正则表达式或使用某些确实解决问题的库来检测您想要的文本从像 jgeocoder 库这样的纯文本中提取,您需要解析(在网页的每个节点上迭代)尝试找到类似于地址、电话号码、传真号码等的内容。这有点类似于标题插件可以,但它不是查找地址或电话号码,而是查找 HTML 结构中的标题节点。这可能是编写一些可以实现您想要的功能的插件的起点,但我认为没有任何现成的东西可以做到这一点。

关于java - 如何使用Nutch抓取并解析精确的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32758204/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com