gpt4 book ai didi

java - 修改Nutch爬虫解析页面并从爬取的页面中获取某些数据

转载 作者:塔克拉玛干 更新时间:2023-11-02 20:01:04 25 4
gpt4 key购买 nike

我想爬取多个站点并根据语言(即“Java”等)收集数据。我是 Nutch 爬虫的新手。我刚刚用 HBase 完成了 Nutch 2.3 的设置。如何自定义抓取,以便在解析每个页面时我可以获得该页面内的链接并从中提取一些数据。例如日期、主题等。

谢谢。

最佳答案

可能晚了,但对于面临同样问题的任何人。这可以通过提供您自己的 ParseFilter 插件来解决。

您可以在 this documentation 阅读有关插件的信息

基本上,您实现了将 DocumentFragment 对象作为参数的方法解析。然后,您可以从 DocumentFragment 中使用 xPath 解析您需要的任何信息。解析后的数据可以保存在网页元数据中。

实现插件后,您只需将其包含到源代码中,在 nutch-site.xml 中使用,构建即可。

关于java - 修改Nutch爬虫解析页面并从爬取的页面中获取某些数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29070411/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com