作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的问题是从特定的种子列表开始抓取每个页面和每个文档。
我已经安装了 nutch 并使用以下命令让它运行:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
我预计 nutch 进程会抓取大约 100 个 url,但它说它只找到 11 个文档。所以我试着用这个命令运行 nutch:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4
它找到了 23 个文档。
我正在运行从测试种子开始的过程 http://nutch.apache.org
为什么nutch会有这种行为?我如何设置 nutch 以一定深度从我的种子开始抓取每个 url?
最佳答案
topN 设置每个深度要抓取的url个数。在您的第一个示例中,深度为 3。Depth1 是种子网址。在 depth2 和 depth3 中,将获取 5(topN 值)个 url。 5*2(depth2 和 depth3)+ 1(种子 url 即 depth1)= 11。要获取更多 url,您可以增加 topN。如果您不想限制,则可以跳过 topN 参数。
关于Nutch:以一定深度抓取每个 URL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11500387/
我正在尝试开发右边框/Angular 具有特定 Angular (30°) 的表格。我见过一些类似的解决方案,但它们都无法在一定程度上发挥作用。如果我想从 30° 改变到 20°,我不想花太多力气。
我是一名优秀的程序员,十分优秀!