gpt4 book ai didi

apache - 如何限制 Apache Nutch 2.3.1 抓取故事内容而不是边栏

转载 作者:可可西里 更新时间:2023-11-01 16:38:17 25 4
gpt4 key购买 nike

我必须抓取一些新闻网站。我已经使用 Hadoop 2.7.4 和 Hbase 集群设置了 apache Nutch 2.3.1。我必须通过 solr 6.6.1 提供搜索。在爬取一些网站后,我观察到Nutch 会爬取一个页面中的所有内容。在新闻网站中,有包含最新或热门新闻等的侧边栏。这些侧边栏内容随时间而变化。有没有办法让Nutch爬取主要故事内容并避免出现此类侧边栏。

最佳答案

嗯,因为您使用的是 Nutch 2.x,所以这有点困难,对于 Nutch 1.x,您可以使用 Tika 上提供的样板管道实现。但不幸的是,它还没有移植到 2.x 分支。

关于apache - 如何限制 Apache Nutch 2.3.1 抓取故事内容而不是边栏,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47173950/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com