lucene - Nutch - 如何通过小块爬行？-6ren

lucene - Nutch - 如何通过小块爬行？

转载作者：行者123 更新时间：2023-12-04 22:52:28

25

4

我不能让 Nutch 小块地为我爬行。我从 开始bin/nutch 爬行 参数为 -depth 7 和 -topN 10000 的命令。它永远不会结束。仅在我的硬盘为空时结束。我需要做什么:

开始爬我的种子
进一步发展的可能性
外链。

抓取 20000 页，然后
索引它们。

再爬 20000
页面，索引它们并合并
第一个索引。

循环步骤 3 n 次。

还尝试了在 wiki 中找到的脚本，但我发现的所有脚本都没有更进一步。如果我再次运行它们，它们会从头开始做所有事情。在脚本的末尾，我拥有与开始爬行时相同的索引。但是，我需要继续我的爬行。

最佳答案

您必须了解 Nutch 生成/获取/更新周期。

循环的生成步骤将从爬网数据库中获取 url(您可以使用 topN 参数设置最大数量)并生成一个新段。最初，爬网数据库将只包含种子网址。

fetch 步骤执行实际的爬行。页面的实际内容存储在段中。

最后，更新步骤使用 fetch 的结果更新爬网数据库(添加新 url、设置 url 的最后一次 fetch 时间、设置 url 的 fetch 的 http 状态代码等)。

爬网工具将运行此循环 n 次，可使用深度参数进行配置。

在所有周期完成后，爬网工具将删除启动它的文件夹中的所有索引，并从所有段和爬网数据库创建一个新索引。

因此，为了执行您的要求，您可能不应该使用爬网工具，而是调用单独的 Nutch 命令，这就是爬网工具在幕后所做的事情。有了它，您将能够控制爬行的次数，并确保在每次迭代时始终合并索引而不是删除索引。

我建议你从脚本开始定义 here并根据您的需要进行更改。

关于lucene - Nutch - 如何通过小块爬行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2537874/

25

4

0

文章推荐： asp.net-mvc - ASP.NET MVC 后模型的示例？

文章推荐： perl - 如何从 Perl 读取 Gmail 帐户中的邮件？

文章推荐： sql - 如何从选择语句中选择结果的子集

java - NodeJS TCP 服务器，onData 小块
我制作了一个简单的 NodeJS TCP 服务器，Java 客户端发送图像: encodedImage = out.write("IMG;" + encodedImage); out.flush()
XML/XSL 小块 : Is it possible to create a COMPOSITE XML/XSLT document?
我最近(比如 2 天)开始使用带有 XML 的 XSLT 文档。我了解基础知识，并且能够使用引用单独 .XSLT 文档的 .XML 文档生成格式化文档。我的问题与主题一样，是“是否可以创建一个包含

首页

博学

6Ren·AI

商城

lucene - Nutch - 如何通过小块爬行？