java - 当我重新启动爬虫时，如何在达到最后一个深度后继续爬行？-6ren

java - 当我重新启动爬虫时，如何在达到最后一个深度后继续爬行？

转载作者：行者123 更新时间：2023-11-30 01:59:22

25

4

大家好我正在制作一个网络应用程序，可以从特定网站抓取大量页面，我启动了具有无限深度和页面的crawler4j软件，但突然由于互联网连接而停止了。现在我想继续爬行该网站，而不是在考虑我具有最后页面深度之前获取我访问过的网址。

Note : I want some way that not to check my stored url with the urls I will fetch because I don't want to send very much requests to this site.

**谢谢**☺

最佳答案

通过启用此功能，您可以通过 crawler4j 使用“可恢复”爬网

crawlConfig.setResumableCrawling(true);

在给定的配置中。请参阅crawler4j的文档here .

关于java - 当我重新启动爬虫时，如何在达到最后一个深度后继续爬行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53400306/

25

4

0

文章推荐： Java8 - 用于多个搜索条件的嵌套数据结构

文章推荐： java - 如何使用 JDBC 将多边形插入到 PostGIS

文章推荐： java - Kafka Streams : topic. Compression.type 不是已知配置

文章推荐： java - ExecutorService FixThreadPool 作为共享参数不并行运行

android - 在 Flash AS3 中使用 Adobe Air 重新启动/重新启动 android 应用程序
我搜索了重启我的 android 应用程序的替代方法，但我发现重启的唯一方法是使用 Flex 构建. 我可以用 as3 flash 重启我的 android adobe air 应用程序吗？我该怎么做
Python程序不循环/重新启动
我有一个学校评估，是为了制作一个 child 的拼写游戏，当玩家单击"is"时，它必须循环/重新启动。到目前为止，当我测试游戏时，询问玩家是否想再次玩的选项/easygui.buttonbox 以
docker - 重新启动:始终强制重新创建
在.yml文件中，我定义了:restart: always。是否可以将此重启创建为--force-recreate标志的等效项？我的XVFB有问题，标准重启无法解决问题，但通过--force-rec
java - 重新启动 while 循环
我正在尝试重新启动 while 循环。我已经声明了 boolean 类型的变量 keepGoing 。如果 int 变量 x 超出窗口，则 keepGoing 更改为 false。然后reset()方
java - 重新启动 Chromecast
如何使用 Cast SDK 或其他方式让我的应用以官方 Chromecast 应用的方式触发 Chromecast 重启？如果是“否则”，Google Play 可能会对这种做法不友善吗？最佳答案
postgresql - 重新启动 postgres
运行/etc/init.d/postgresql restart有没有危险？我们刚刚发生了一些关系“消失”的事件，我运行了上述命令。刚刚被系统管理员骂了一顿，但是他没有解释为什么这是一件坏事。我确实将
php - 重新启动 While 循环
是否可以重新启动 while 循环？我目前在 foreach 循环中存在一个 while 循环，并且每次都需要 while 语句从头开始。 $sql = mysqli_query($link, "SE
iphone - NSTimer 重新启动
我有如下倒计时器: - (void)updateCounterLabel:(NSTimer *)theTimer { if(secondsLeft > 0 ){ secondsLeft
python - 重新启动 if then 语句
就像我在 python 中一样。 choice1 = raw_input('John Blue Green') if choice1 == 'A': print('blah') elif cho
python - 重新启动 Pygame？
我的游戏在 True 循环中运行一段时间，我希望能够要求用户“再玩一次？”我已经有了用于弹出文本的矩形的代码，但我需要一种方法让用户单击矩形或按 y 表示是，然后代码再次自行运行。最佳答案在您的主
linux - 重新启动 Nginx
我是 nginx 的初学者。我正在使用 Ubuntu 16.04。我按照步骤操作， sudo apt-get 更新。 sudo apt-get install nginx sudo apt-get 升
javascript - 重新启动/重置并重播过渡CSS？
我需要使用 javascript 重放一个 css 转换。当我重置我的 div 的 css 样式并应用新的过渡时，没有任何反应...... 我认为这两个代码是在同一个执行框架中执行的，并且通过优化，它
c# 重新启动 for 循环
所以我有这几行代码: string[] newData = File.ReadAllLines(fileName) int length = newData.Length; for (int i =
javascript - 重新启动 setInterval
所以我有一个计时器，每 5 秒旋转一组图像。因此，我在文档启动时运行它。 $(document).ready(function() { var intervalID=setInterval(funct
linux - 重新启动 Apache 服务器的问题
好吧，我在重新启动 Apache 服务器时遇到了一些问题。我修改了服务器上的 ulimit 但我无法重新启动 httpd；我在 CentOS 5.8 x64 上运行服务器. httpd -V 的输出
docker - 重新启动 docker 服务会杀死所有容器吗？
我在使用 docker 时遇到问题 docker ps不会返回并被卡住。我发现做 docker service restart 之类的sudo service docker restart (htt
wpf - 重新启动 WPF Storyboard
从 .net 代码停止和重新启动 Storyboard的正确方法是什么？我想 ... myStory.Stop(this); 期望随后调用 .Begin(this);将从零开始从时间线重新开始，但
apache - 重新启动(启动)apache网络服务器时我可以执行shell脚本吗
我有一个带有一些缓存后端的应用程序，我想在重新启动网络服务器时清除缓存。在网络服务器(重新)启动时是否有 apache 配置指令或任何其他方式来执行 shell 脚本？谢谢，菲尔正如一些答案已
java - 重新启动 Swing 应用程序
我愿意在我的应用程序中添加一个按钮，单击该按钮将重新启动应用程序。我搜索了谷歌，但发现除了 this one 没有任何帮助.但是这里遵循的程序违反了 Java 的 WORA 概念。是否还有其他以 J
coldfusion - 重新启动 ColdFusion 邮件队列
我们目前遇到间歇性邮件队列中断。我是 seeking diagnostic help in another area . 同时，有没有办法在不重启整个服务的情况下重启CF邮件队列？ CF8标准 Win

首页

博学

6Ren·AI

商城

java - 当我重新启动爬虫时，如何在达到最后一个深度后继续爬行？