Nutch:以一定深度抓取每个 URL-6ren

Nutch:以一定深度抓取每个 URL

转载作者：行者123 更新时间：2023-12-01 11:00:23

我的问题是从特定的种子列表开始抓取每个页面和每个文档。

我已经安装了 nutch 并使用以下命令让它运行:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

我预计 nutch 进程会抓取大约 100 个 url，但它说它只找到 11 个文档。所以我试着用这个命令运行 nutch:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4

它找到了 23 个文档。

我正在运行从测试种子开始的过程 http://nutch.apache.org

为什么nutch会有这种行为？我如何设置 nutch 以一定深度从我的种子开始抓取每个 url？

最佳答案

topN 设置每个深度要抓取的url个数。在您的第一个示例中，深度为 3。Depth1 是种子网址。在 depth2 和 depth3 中，将获取 5(topN 值)个 url。 5*2(depth2 和 depth3)+ 1(种子 url 即 depth1)= 11。要获取更多 url，您可以增加 topN。如果您不想限制，则可以跳过 topN 参数。

关于Nutch:以一定深度抓取每个 URL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11500387/