gpt4 book ai didi

java - 当我重新启动爬虫时,如何在达到最后一个深度后继续爬行?

转载 作者:行者123 更新时间:2023-11-30 01:59:22 25 4
gpt4 key购买 nike

大家好我正在制作一个网络应用程序,可以从特定网站抓取大量页面,我启动了具有无限深度和页面的crawler4j软件,但突然由于互联网连接而停止了。现在我想继续爬行该网站,而不是在考虑我具有最后页面深度之前获取我访问过的网址。

Note : I want some way that not to check my stored url with the urls I will fetch because I don't want to send very much requests to this site.

**谢谢**☺

最佳答案

通过启用此功能,您可以通过 crawler4j 使用“可恢复”爬网

crawlConfig.setResumableCrawling(true);

在给定的配置中。请参阅crawler4j的文档here .

关于java - 当我重新启动爬虫时,如何在达到最后一个深度后继续爬行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53400306/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com