python - 在循环中第二次调用“driver.get(url)”后，Selenium出现“错误:已超过最大重试次数”，其中“url”的值每次迭代都会更改-6ren

python - 在循环中第二次调用“driver.get(url)”后，Selenium出现“错误:已超过最大重试次数”，其中“url”的值每次迭代都会更改

转载作者：太空宇宙更新时间：2023-11-03 21:09:22

28

4

This question already has answers here:

MaxRetryError: HTTPConnectionPool: Max retries exceeded (Caused by ProtocolError('Connection aborted.', error(111, 'Connection refused')))

                                    （2个答案）


                                12个月前关闭。


GITHUB链接到脚本

https://github.com/Lexszin/learning-stuff/blob/master/Python/Web%20Crawling/Mangadex_downloader/main.py

问题描述

基本上，我做了一个脚本，可以从 https://mangadex.org下载漫画图像。

该脚本在技术上可以正常运行，但是在循环的第二次迭代开始时会返回“ Max Retries Exceed”（超过最大重试次数）...这对我来说没有意义，考虑到url在每次迭代中都会更新一次，并且只调用一次，如何仅被调用一次时有多次重试？

这个问题似乎不是客户端，而是服务器端，因为图像在第一次迭代中就可以很好地下载了，但这很奇怪。

以下是脚本中采取的步骤：

在 https://mangadex.org/检索所有现有标题，存储在“ index.json”，如果“ index.json”已存在，则加载文件。（工作中）
解析从Myanimelist导入的“ .xml”文件，并从中返回所有漫画标题。（工作中）
循环浏览“ index.json”和已粘贴的“ .xml”文件中的所有标题。（工作中）
对于每个漫画，创建一个带有标题的目录，通过请求获取标题主页的源代码，并查找有多少页。（工作中）
循环浏览每个页面，为每个页面获取英语或葡萄牙语的漫画的所有漫画标题及其链接。（工作中）
从标题的首页爬取数据后，循环浏览章节标题及其URL的压缩实例。（工作中）
在manga目录中创建一个目录，命名为当前迭代/章节（1、2、3等）。在新创建的文件夹中，创建一个名为“ EN”的文件夹（仅存储英语章节）。在新创建的“ EN”文件夹中，创建一个带有实际章节名称的文件夹。（使用章节名称创建文件夹的原因是因为有时某些特定语言缺少章节，如果我使用迭代文件夹的编号来了解当前章节，则我将处于正确的迭代中，但可能不在正确的迭代中正确的章节。）（工作）
对于当前标题的每个章节链接，请使用Selenium的chrome webdriver转到其第一页。（内容以JavaScript呈现）（工作中）
在第一章的页面中，获取该章中有多少页。将最后一页（包括最后一页）范围内的每个图像下载到新创建的Chapter文件夹中。
而已。然后，循环在下一章重新开始。当前标题的所有章节完成后，新的循环将从新的漫画开始。

确实可以正常工作...

但是，在第一个完整的循环周期之后（下载了当前章节的所有页面之后，然后遍历下一章），我得到了一个例外。每次运行脚本时，都会使用不同的IP地址和标题。
每次也完全下载指定的第一章。

从表面上看，在第一个周期之后，在Selenium加载第一章的那一行，此错误消息返回。

我有一个NordVPN订阅，所以我多次重新路由了IP，但仍然遇到相同的错误。

另外，如果图像已经下载到了假定的文件夹中，则脚本将跳过当前章节并开始下载下一章，因此即使不下载任何内容，我仍然会收到此错误消息。

关于什么可能导致此问题的任何想法？

错误

DevTools listening on ws://127.0.0.1:51146/devtools/browser/b6d08910-ea23-4279-b9d4-6492e6b865d0
Traceback (most recent call last):
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connection.py", line 159, in _new_conn
    (self._dns_host, self.port), self.timeout, **extra_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\util\connection.py", line 80, in create_connection
    raise err
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\util\connection.py", line 70, in create_connection
    sock.connect(sa)
ConnectionRefusedError: [WinError 10061] No connection could be made because the target machine actively refused it

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 600, in urlopen
    chunked=chunked)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 354, in _make_request
    conn.request(method, url, **httplib_request_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 1229, in request
    self._send_request(method, url, body, headers, encode_chunked)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 1275, in _send_request
    self.endheaders(body, encode_chunked=encode_chunked)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 1224, in endheaders
    self._send_output(message_body, encode_chunked=encode_chunked)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 1016, in _send_output
    self.send(msg)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\http\client.py", line 956, in send
    self.connect()
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connection.py", line 181, in connect
    conn = self._new_conn()
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connection.py", line 168, in _new_conn
    self, "Failed to establish a new connection: %s" % e)
urllib3.exceptions.NewConnectionError: <urllib3.connection.HTTPConnection object at 0x000002128FCDD518>: Failed to establish a new connection: [WinError 10061] No connection could be made because the target machine actively refused it

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "c:/Programming/Python/Projects/Mangadex.downloader/main.py", line 154, in <module>
    driver.get(chapter_start_url)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 333, in get
    self.execute(Command.GET, {'url': url})
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\remote\webdriver.py", line 319, in execute
    response = self.command_executor.execute(driver_command, params)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\remote\remote_connection.py", line 374, in execute
    return self._request(command_info[0], url, body=data)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\selenium\webdriver\remote\remote_connection.py", line 397, in _request
    resp = self._conn.request(method, url, body=body, headers=headers)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\request.py", line 72, in request
    **urlopen_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\request.py", line 150, in request_encode_body
    return self.urlopen(method, url, **extra_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\poolmanager.py", line 323, in urlopen
    response = conn.urlopen(method, u.request_uri, **kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 667, in urlopen
    **response_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 667, in urlopen
    **response_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 667, in urlopen
    **response_kw)
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\connectionpool.py", line 638, in urlopen
    _stacktrace=sys.exc_info()[2])
  File "C:\Users\alexT\AppData\Local\Programs\Python\Python37\lib\site-packages\urllib3\util\retry.py", line 398, in increment
    raise MaxRetryError(_pool, url, error or ResponseError(cause))
urllib3.exceptions.MaxRetryError: HTTPConnectionPool(host='127.0.0.1', port=51139): Max retries exceeded with url: /session/4f72fba8650ac3ead558cb25172b4b38/url (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x000002128FCDD518>: Failed to establish a new connection: [WinError 10061] No connection could be made because the target machine actively refused it'))

目的

我正在制作一个脚本，该脚本从您导出的MyAnimeList（可能也适用于Anilist）XML列表中解析漫画标题，并下载 https://mangadex.org中存在的所有列出的标题

我正在使用的模块：请求，重新，Beautiful Soup，json，os，selenium，time和urllib

请求-用于获取具有我所需信息的页面的源代码

重新-使用正则表达式解析包含在 https://myanimelist.net中的漫画列表的“ .xml”文件，并在章节中更改要下载的当前图像的链接。（链接始终以“ .jpg”或“ .png”结尾，扩展名前有一个数字，即当前页面的编号，数字前有一个随机字母）

Beautiful Soup-用于解析请求的响应，解析标题，标题的链接，章节标题，章节的链接等。

JSON-用于将解析的漫画列表中的数据存储和加载到“ index.json”中或从中加载数据

操作系统-用于检查文件/目录是否存在。

硒-仅在各章中使用，因为读者使用JavaScript加载图像（将下载图像）以及当前章中有多少页（以此为基础循环浏览图像，因为它们具有相同的标题，URL中唯一改变的是当前页面）。

时间-Selenium加载章节页面后，仅使用一次，以便页面完全加载。

Urllib-用于下载章节图像。

PS-MyAnimeList和Anilist是动漫系列和漫画系列的索引，其中有漫画和动漫系列的列表，您可以在其中为列表的每个项目设置标签。（如果您打算阅读漫画，观看动漫，如果动漫完成，等等。）

最佳答案

我不确定这是否100％相关，但是最近我遇到了类似的错误。我发现的解决方案是无法存储cookie，因此该站点基本上是在两台服务器之间对我的请求执行ping操作，其中一台将尝试为我的浏览器分配cookie，而另一台将期望该cookie，但我的请求不会随它一起发送，因此它使我回到服务器1。我发现解决该问题的代码是使用：

s = requests.session()
s.headers['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.131 Safari/537.36'

我认为您应该复制/粘贴以上行...我做到了:)然后使用以下方法获取URL：

res = s.get(my_URL)
soup = bs4.BeautifulSoup(res.text, 'html.parser')

像这样使用request.session（）可以保存cookie，然后将其发送到其他内部服务器并正确处理

关于python - 在循环中第二次调用“driver.get(url)”后，Selenium出现“错误:已超过最大重试次数”，其中“url”的值每次迭代都会更改，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55172031/

上一篇：python - 预测给定文档的每个分类箱的概率得分

下一篇：python - 训练损失在最初几个时期下降，但突然跳到一个高值

python - Python 中 Selenium 属性提取的问题

node.js - Selenium Node.js转移控制到其他标签

selenium - docker-compose 运行多个任务而不共享依赖项

javascript - 我正在尝试单击 Selenium Web 驱动程序中的链接以打开对话框

python - 属性错误: 'function' object has no attribute 'find_all' Beautiful Soup

python - 使用paramiko执行命令

Python Xpath 仅从根元素获取值

web-scraping - 网络抓取是否合法？

python - 如何在 Mac 的终端中运行 python？

28

4

0

文章推荐： opencv - cvLoadImage 适用于字符串常量但不适用于 c_str()

文章推荐： opencv - 用于训练机器学习算法的矩阵未处理的异常

文章推荐： OpenCV OutputArray 堆损坏？

文章推荐： OpenCV FREAK 对旋转/缩放不稳健

java - driver.get(URL)、driver.navigate().to(URL) 和 driver.navigate().back() 不起作用
我正在尝试获取此亚马逊页面中列出的每台笔记本电脑的图像 URL ( https://www.amazon.com/s?rh=n%3A565108%2Cp_72%3A4-&pf_rd_i=565108&
java - 如何安装 com.mysql.jdbc.Driver "Could not find driver with class name: com.mysql.jdbc.Driver"？
我正在设置 Atlassian Confluence，在选择数据库时，我在选择“使用外部 Mysql 数据库”时卡住了我看过一些教程，但对我来说，它并没有按照应有的方式工作。我使用 ubuntu 12
java - org.neo4j.ogm.exception.ServiceNotFoundException : Driver: org. neo4j.ogm.drivers.http.driver.HttpDriver
我是 Neo4J 的新手，正在尝试通过 java 连接到 Neo4J 服务器。我的一个独立项目的pom入口如下: org.neo4j neo4j-o
apache-spark - spark.local.ip ,spark.driver.host,spark.driver.bindAddress 和 spark.driver.hostname 是什么？
所有这些有什么区别和用途？ spark.local.ip spark.driver.host spark.driver.bind地址 spark.driver.hostname 如何将机器修复为 Sp
driver - Scratch 执行窗口模糊和闪烁 : is video driver faulty?
我在旧的 Inspiron 6400 计算机(GeForce 7300 笔记本电脑版)上安装了 Lubuntu 19.04，通过网络草稿编辑器教我儿子 Scratch。每次我通过 Firefox 打开
android - QSql数据库 : Driver not loaded Driver not loaded
我使用 qt 开发了一个 c++ 库。在本文中，我使用 QSqlDatabase 从 SQLite 数据库中查询信息。注意:我的库在 qt 桌面应用程序中运行良好(我在 Linux 上开发)。现在我
mysql - PDO异常 : Cannot find driver but driver installed
存在类似的问题，但没有帮助。在 Apache 2.4 上安装 php5-fpm 通过 SSL 连接到远程 MySql 数据库。可以通过命令行连接MySQL mysql -u myname -p'p
symfony 4 : An exception occurred in driver: could not find driver
使用以下配置 (doctrine.yaml) 在 Symfony 4 中使用 Doctrine DBAL: dbal: # configure these for your database
symfony 4 : An exception occurred in driver: could not find driver
使用以下配置 (doctrine.yaml) 在 Symfony 4 中使用 Doctrine DBAL: dbal: # configure these for your database
java - Selenium Web Driver 似乎间歇性地跳过 driver.get()
我有一个用 Java 编写的 Selenium Web 驱动程序测试，目标是 Liferay 站点。 // Login driver.get(baseUrl + "/"); driver.findEl
java - driver.findElement() 和 driver.findElements() 有什么区别？
在driver.findElements()中，我们获得了另一个用于查找size()的函数，该函数在driver.findElement()中不可用。这是唯一的区别吗？最佳答案 driver.fi
java - 屏幕上显示错误消息 : The driver executable does not exist:/Project/Driver/chromedriver
这个问题已经有答案了: java.lang.IllegalStateException: The driver executable does not exist: while trying to e
driver - 解决驱动程序开发 : Signed driver not recognized by Windows CodeIntegrity 3004
简短描述:我有一个通过 SignTool 验证的签名驱动程序，但 Windows 拒绝加载它并出现错误:CodeIntegrity 3004 - 在系统上找不到文件哈希。我该如何解决这个问题？详细说
java - geb.driver.DriverCreationException : failed to create driver from callback
我正在设置一些 Geb 测试，但出现“geb.driver.DriverCreationException:无法从回调创建驱动程序”错误。 Geb 将尝试启动测试浏览器窗口，但一旦启动，我的所有测试都
java.lang.IllegalStateException : The driver executable does not exist chrome driver
我想通过应用对象存储库概念在 Chrome 驱动程序中打开 url。下面给出的是我的 selenium 程序，其中包含两个文件，一个是 testng 文件，另一个是 config.property 文
java - 春袋鼠 : JDBC driver not available for 'org.h2.Driver'
我在 Ubuntu Linux、Spring Tools 2.7.1、Spring Roo 1.1.5 上运行 Eclipse Indigo。我正在阅读 Getting Started with Ro
c# - Selenium driver.Url 与 driver.Navigate().GoToUrl()
打开 Url 的首选方法是什么(它们之间是否存在任何差异): driver.Url = "http://example.com"; 或 driver.Navigate().GoToUrl("http:
python - cassandra-driver 执行查询时，cassandra-driver 返回错误 OperationTimedOut
我使用 python 脚本传递给 cassandra 批处理查询，如下所示: query = 'BEGIN BATCH ' + 'insert into ... ; insert into ... ;
macos - 使用 Protractor 运行脚本时获取 "Driver info: driver.version: unknown"
我在 Protractor 中执行脚本时出现以下错误。 System info: host: '8888', ip: '88888', os.name: 'Mac OS X', os.arch: 'x
python - KeyError : 'driver' in print(response. request.meta ['driver' ].title)
我收到错误 KeyError:'driver'。我想使用scrapy-selenium 创建一个网络爬虫。我的代码如下所示: class TestSpider(Spider): name="test

首页

博学

6Ren·AI

商城

python - 在循环中第二次调用“driver.get(url)”后，Selenium出现“错误:已超过最大重试次数”，其中“url”的值每次迭代都会更改