gpt4 book ai didi

lucene - Nutch - 如何通过小块爬行?

转载 作者:行者123 更新时间:2023-12-04 22:52:28 25 4
gpt4 key购买 nike

我不能让 Nutch 小块地为我爬行。我从 开始bin/nutch 爬行 参数为 -depth 7 和 -topN 10000 的命令。它永远不会结束。仅在我的硬盘为空时结束。我需要做什么:

  • 开始爬我的种子
    进一步发展的可能性
    外链。
  • 抓取 20000 页,然后
    索引它们。
  • 再爬 20000
    页面,索引它们并合并
    第一个索引。
  • 循环步骤 3 n 次。

  • 还尝试了在 wiki 中找到的脚本,但我发现的所有脚本都没有更进一步。如果我再次运行它们,它们会从头开始做所有事情。在脚本的末尾,我拥有与开始爬行时相同的索引。但是,我需要继续我的爬行。

    最佳答案

    您必须了解 Nutch 生成/获取/更新周期。

    循环的生成步骤将从爬网数据库中获取 url(您可以使用 topN 参数设置最大数量)并生成一个新段。最初,爬网数据库将只包含种子网址。

    fetch 步骤执行实际的爬行。页面的实际内容存储在段中。

    最后,更新步骤使用 fetch 的结果更新爬网数据库(添加新 url、设置 url 的最后一次 fetch 时间、设置 url 的 fetch 的 http 状态代码等)。

    爬网工具将运行此循环 n 次,可使用深度参数进行配置。

    在所有周期完成后,爬网工具将删除启动它的文件夹中的所有索引,并从所有段和爬网数据库创建一个新索引。

    因此,为了执行您的要求,您可能不应该使用爬网工具,而是调用单独的 Nutch 命令,这就是爬网工具在幕后所做的事情。有了它,您将能够控制爬行的次数,并确保在每次迭代时始终合并索引而不是删除索引。

    我建议你从脚本开始定义 here并根据您的需要进行更改。

    关于lucene - Nutch - 如何通过小块爬行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2537874/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com