gpt4 book ai didi

java - Nutch 爬虫只能找到给定页面上的链接子集?

转载 作者:行者123 更新时间:2023-12-01 15:39:34 24 4
gpt4 key购买 nike

我使用以下命令来抓取包含 788 个链接的单个页面:

nutch crawl urls/ -dir crawls -depth 1 -topN 1000

上面的命令只能找到72个url!这是输出nutch readdb ./crawls/crawldb/-stats:

CrawlDb statistics start: ./crawls/crawldb/

Statistics for CrawlDb: ./crawls/crawldb/

TOTAL urls: 72

retry 0: 72

min score: 0.009

avg score: 0.026777778

max score: 1.279

status 1 (db_unfetched): 71

status 2 (db_fetched): 1

CrawlDb statistics: done

我的 regex-urlfilter.txt 具有默认设置,并且我使用的是 Nutch 1.4。

感谢任何帮助。

最佳答案

我也遇到了类似的问题。就我而言,属性 http.content.limit 是问题所在。默认值为“65536”。如果您的页面较大,它将被截断并且链接可能会丢失。

关于java - Nutch 爬虫只能找到给定页面上的链接子集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8292495/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com