- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我不能让 Nutch 小块地为我爬行。我从 开始bin/nutch 爬行 参数为 -depth 7 和 -topN 10000 的命令。它永远不会结束。仅在我的硬盘为空时结束。我需要做什么:
最佳答案
您必须了解 Nutch 生成/获取/更新周期。
循环的生成步骤将从爬网数据库中获取 url(您可以使用 topN 参数设置最大数量)并生成一个新段。最初,爬网数据库将只包含种子网址。
fetch 步骤执行实际的爬行。页面的实际内容存储在段中。
最后,更新步骤使用 fetch 的结果更新爬网数据库(添加新 url、设置 url 的最后一次 fetch 时间、设置 url 的 fetch 的 http 状态代码等)。
爬网工具将运行此循环 n 次,可使用深度参数进行配置。
在所有周期完成后,爬网工具将删除启动它的文件夹中的所有索引,并从所有段和爬网数据库创建一个新索引。
因此,为了执行您的要求,您可能不应该使用爬网工具,而是调用单独的 Nutch 命令,这就是爬网工具在幕后所做的事情。有了它,您将能够控制爬行的次数,并确保在每次迭代时始终合并索引而不是删除索引。
我建议你从脚本开始定义 here并根据您的需要进行更改。
关于lucene - Nutch - 如何通过小块爬行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2537874/
我制作了一个简单的 NodeJS TCP 服务器,Java 客户端发送图像: encodedImage = out.write("IMG;" + encodedImage); out.flush()
我最近(比如 2 天)开始使用带有 XML 的 XSLT 文档。我了解基础知识,并且能够使用引用单独 .XSLT 文档的 .XML 文档生成格式化文档。 我的问题与主题一样,是“是否可以创建一个包含
我是一名优秀的程序员,十分优秀!