gpt4 book ai didi

java - Apache Nutch 2.3.1 获取错误

转载 作者:太空宇宙 更新时间:2023-11-04 11:20:25 24 4
gpt4 key购买 nike

我正在尝试抓取整个网站并预计会出现大量的网址。因此,我将 apache nutch 爬行的轮数设置为 5,然后运行爬行。爬网现在处于第三轮,仍然可以正常获取网址,但在日志文件中我看到了这一点:

fetching url name that was fetched (queue crawl delay=5000ms) 50/50 spinwaiting/active, 949 pages, 2 errors, 0.2 0 pages/s, 26 17 kb/s, 2500 URLs in 1 queues

如何找出这两个错误是什么?我在获取的数百个网址下方看到此错误。我正在使用 apache nutch 2.3.1 和 hbase 0.94。谢谢!

最佳答案

检查日志文件中是否有错误,某些错误是由于 Internet 连接速度慢或超时(最大)问题而发生的。检查您的日志以了解详细信息

关于java - Apache Nutch 2.3.1 获取错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44980454/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com