gpt4 book ai didi

Nutch:以一定深度抓取每个 URL

转载 作者:行者123 更新时间:2023-12-01 11:00:23 24 4
gpt4 key购买 nike

我的问题是从特定的种子列表开始抓取每个页面和每个文档。

我已经安装了 nutch 并使用以下命令让它运行:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

我预计 nutch 进程会抓取大约 100 个 url,但它说它只找到 11 个文档。所以我试着用这个命令运行 nutch:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4

它找到了 23 个文档。

我正在运行从测试种子开始的过程 http://nutch.apache.org

为什么nutch会有这种行为?我如何设置 nutch 以一定深度从我的种子开始抓取每个 url?

最佳答案

topN 设置每个深度要抓取的url个数。在您的第一个示例中,深度为 3。Depth1 是种子网址。在 depth2 和 depth3 中,将获取 5(topN 值)个 url。 5*2(depth2 和 depth3)+ 1(种子 url 即 depth1)= 11。要获取更多 url,您可以增加 topN。如果您不想限制,则可以跳过 topN 参数。

关于Nutch:以一定深度抓取每个 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11500387/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com