gpt4 book ai didi

nutch - 如何在找到的页面上抓取外部链接?

转载 作者:行者123 更新时间:2023-12-04 06:42:58 25 4
gpt4 key购买 nike

我使用了从他们的 wiki 安装 nutch 的例子。我能够轻松抓取从 dmoz 中提取的多个页面。但是有没有一种配置可以抓取它在页面上找到的外部链接,或者将这些外部链接写入一个文件以供接下来抓取?

跟踪页面上的链接以使用 nutch 索引该页面的最佳方法是什么?如果我通过 python 执行 bin/nutch,我能找回它找到的所有外部链接,并创建一个新的爬网列表来再次运行吗?你会怎么办?

最佳答案

首先,确保参数 'db.ignore.external.links' 设置为 false。此外,在文件“regex-urlfilter.txt”中,为您希望被抓取的外部链接添加规则或添加 +.作为最后一条规则。 +.规则将使爬虫跟随所有链接。如果您使用最后一个选项,请注意您可能会爬行整个网络!

关于nutch - 如何在找到的页面上抓取外部链接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4019115/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com