Selenium+2Captcha自动化+验证码识别实战

转载作者：我是一只小鸟更新时间：2023-08-01 14:31:26

27

4

本文深入探讨了使用Selenium库进行网页自动化操作，并结合2Captcha服务实现ReCAPTCHA验证码的破解。内容涵盖Selenium的基础知识、验证码的分类、2Captcha服务的使用，以及通过实例进行的详细讲解，最后对实践进行总结和优化思考，为读者提供了一条完整的验证码破解实践路线图.

file

1、引言

在现代Web开发中，自动化测试和Web爬虫是很常见的任务。在这两个领域，Selenium是一个被广泛使用的工具，能模拟浏览器操作并对Web页面进行操作和分析。在本篇文章中，我们将首先介绍Selenium的基础知识，然后进一步探讨如何用它来处理另一个常见的Web问题：验证码.

1.1 Selenium简介及其应用场景

Selenium是一个自动化测试工具，主要用于Web应用程序的功能和性能测试。它可以直接运行在浏览器上，支持多种操作系统、浏览器和编程语言。除了测试，Selenium也经常被用在Web爬虫中，用于模拟和自动化浏览器操作.

                        
                          from selenium import webdriver

driver = webdriver.Firefox()
driver.get('http://www.python.org')
assert "Python" in driver.title
driver.quit()

上面的Python代码展示了一个简单的Selenium脚本，它启动了一个Firefox浏览器，然后访问Python官方网站并检查页面标题中是否包含"Python"这个词。最后，关闭浏览器.

1.2 验证码的目的与类型

验证码，全名为"Completely Automated Public Turing test to tell Computers and Humans Apart"，是用于区分用户是机器还是人的公开全自动图灵测试。主要的目的是防止恶意软件和自动化脚本进行骚扰、滥用服务，或进行其他不良行为.

常见的验证码类型包括文本验证码、图形验证码、滑动验证码、点触验证码等。最近，随着机器学习技术的发展，诸如Google的ReCAPTCHA系统，提供了基于用户行为分析的验证码服务，这大大增加了破解的难度.

在接下来的文章中，我们将重点讨论如何使用Selenium来处理这些验证码，尤其是图形验证码和ReCAPTCHA验证码.

2、Selenium知识

Selenium是一个自动化测试工具，主要用于Web应用程序的功能测试。它可以模拟真实的用户行为，例如点击按钮，输入文字，选择下拉菜单等等。因此，Selenium也常常被用于网页爬虫中，来处理JavaScript渲染的页面，或者模拟用户行为.

2.1 Selenium安装和配置

首先，我们需要在我们的机器上安装Selenium。以下是在Python环境中安装Selenium的命令:

                        
                          pip install selenium

然后，我们还需要下载对应的浏览器驱动，例如Chrome的驱动就是chromedriver。驱动的下载地址通常可以在浏览器的官方网站找到.

2.2 WebDriver简介

WebDriver是Selenium的核心部分，它是一个接口，定义了操作浏览器的一系列方法。每种浏览器都有自己的WebDriver实现，例如ChromeDriver，FirefoxDriver等等.

以下是一个简单的例子，展示了如何使用WebDriver打开一个网页:

                        
                          from selenium import webdriver

driver = webdriver.Firefox()
driver.get('http://www.google.com/')

上述代码首先创建了一个FirefoxDriver的实例，然后调用了它的 get 方法打开了Google的首页.

2.3 页面元素定位

Selenium提供了多种定位页面元素的方法，例如通过id、name、class name、tag name、link text、partial link text、xpath、css selector等等.

以下是一些定位元素的例子:

                        
                          element = driver.find_element_by_id('id_of_element')  # 通过id定位
element = driver.find_element_by_name('name_of_element')  # 通过name定位
element = driver.find_element_by_class_name('class_of_element')  # 通过class name定位
element = driver.find_element_by_tag_name('tag_of_element')  # 通过tag name定位
element = driver.find_element_by_xpath('//div[@class="my_class"]')  # 通过xpath定位
element = driver.find_element_by_css_selector('div.my_class')  # 通过css selector定位

2.4 操作页面元素

得到了页面元素之后，我们就可以对它进行操作了。常见的操作有输入文字、点击按钮、获取元素文本等等.

以下是一些操作元素的例子:

                        
                          element.send_keys('some text')  # 输入文字
element.click()  # 点击元素
text = element.text  # 获取元素的文本

2.5 等待页面加载

在网页爬虫中，我们经常会遇到需要等待页面加载的情况。Selenium提供了两种等待方式：显式等待和隐式等待.

以下是一个显式等待的例子:

                        
                          from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

element = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'id_of_element'))
)

上述代码会等待最多10秒，直到页面中出现了id为'id_of_element'的元素.

2.6 高级操作

Selenium还支持一些高级操作，例如执行JavaScript代码、操作cookies、切换iframe、处理弹窗等等.

以下是一个执行JavaScript代码的例子:

                        
                          driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')

上述代码执行了一个JavaScript脚本，将页面滚动到底部。这在处理一些需要滚动加载的网页时非常有用.

3、验证码破解：Selenium使用2Captcha服务实现ReCAPTCHA验证码破解

验证码是网络世界的一种普遍存在的安全机制，用于区分人类用户和机器。在此，我们将结合Selenium和一个自动验证码解决方案（TwoCaptcha），来展示如何破解一种常见的验证码——ReCAPTCHA.

1.1 2Captcha服务介绍 cn.2captcha.com

2Captcha是一种基于人工劳动力的验证码识别服务。它提供了一个API接口，允许开发者将无法识别的验证码发送到2Captcha服务。然后2Captcha的工人会手动识别并返回结果。这种服务对处理图像验证码、reCAPTCHA、FunCaptcha等复杂验证码有很高的准确率。2Captcha的主要优点是其优异的精确性和灵活的API，使得开发者可以轻松集成并在不同环境中使用.

cn.2captcha.com

file

支持验证码类型

file

支持支付宝支付

file

3.2 ReCAPTCHA简介

ReCAPTCHA是Google推出的一种验证码服务，它的主要特点是提供一个"我不是机器人"的复选框让用户点击。在用户点击后，ReCAPTCHA会评估用户的行为，判断用户是否为人类。如果判断用户为人类，那么验证就通过了；如果不能确定，那么就会给出一个额外的挑战，例如选择包含某物的图片.

3.3 使用Selenium模拟用户行为

我们可以使用Selenium来模拟用户点击"我不是机器人"的复选框。在Selenium中，我们可以用 click 方法来模拟点击，例如:

                        
                          checkbox = driver.find_element_by_id('recaptcha_check')
checkbox.click()

然而，这样做可能还不够，因为ReCAPTCHA会分析用户的行为。例如，如果点击过于迅速或者机械化，那么ReCAPTCHA可能会判定为机器行为.

3.4 使用2Captcha自动解决验证码

如果ReCAPTCHA给出了额外的挑战，我们就需要使用其他的工具来解决它。这里我们选择使用TwoCaptcha，它是一个可以自动解决各种验证码的服务.

在TwoCaptcha中，我们需要提供网站的URL和网站的sitekey，然后它会返回一个解决验证码的答案，我们可以将这个答案填回网页，完成验证.

以下是使用TwoCaptcha解决验证码的示例代码:

                        
                          solver = TwoCaptcha(API_KEY)
result = solver.recaptcha(sitekey=sitekey, url=url)

3.5 结合Selenium和2Captcha破解验证码

有了Selenium和TwoCaptcha，我们就可以结合起来，形成一个完整的解决方案。具体步骤如下:

使用Selenium打开网页。
找到并点击"我不是机器人"的复选框。
如果出现额外的挑战，使用TwoCaptcha解决，并将答案填回网页。

下面的代码就实现了上述的步骤:

                        
                          from bs4 import BeautifulSoup
from twocaptcha import TwoCaptcha
from selenium import webdriver

API_KEY = 'your_twocaptcha_api_key'
solver = TwoCaptcha(API_KEY)

# 创建一个WebDriver实例
driver = webdriver.Firefox()

# 使用Selenium打开网页
driver.get('https://www.example.com/')

# 找到并点击"我不是机器人"的复选框
checkbox = driver.find_element_by_id('recaptcha_check')
checkbox.click()

# 如果出现额外的挑战，使用TwoCaptcha解决
sitekey = 'sitekey_from_webpage'
url = driver.current_url
result = solver.recaptcha(sitekey=sitekey, url=url)

# 将答案填回网页
driver.execute_script('document.getElementById("g-recaptcha-response").innerHTML="{}"'.format(result['code']))

3.6 使用Selenium自动填充验证码

Selenium与2Captcha结合，自动填充解析出的验证码。我们可以使用Selenium定位到验证码输入框，并填充解析结果.

                        
                          # 用Selenium定位验证码输入框
input_box = driver.find_element_by_id('captcha-input-box-id')

# 填入解析出的验证码
input_box.send_keys(captcha_solution)

3.7 处理图片验证码

对于图片验证码，我们可以使用Selenium获取图片元素，并保存为本地文件。然后，我们可以将本地文件上传到2Captcha进行解析.

                        
                          # 定位到图片元素
image_element = driver.find_element_by_id('captcha-image-id')

# 将图片保存为本地文件
image_element.screenshot('captcha.png')

# 上传到TwoCaptcha进行解析
solver = TwoCaptcha(API_KEY)
result = solver.normal('captcha.png')

# 填入解析出的验证码
input_box = driver.find_element_by_id('captcha-input-box-id')
input_box.send_keys(result)

3.7 处理其他类型的验证码

除了上述提到的验证码类型外，还有一些其他类型的验证码，例如text CAPTCHA、reCaptcha V2、reCaptcha V3、HCaptcha、Funcaptcha，2Captcha服务均可以很好的解决.

4、总结

通过本文，我们学习了如何使用Selenium库来模拟浏览器操作，并结合TwoCaptcha服务来实现ReCAPTCHA验证码的自动化破解。现在，让我们来总结一下我们的实践并对未来可能的优化提出一些思考.

通过Selenium，我们可以对浏览器进行各种复杂的控制，从打开网页、填写表单，到模拟点击等等。然而，当我们遇到验证码这种需要人类参与的挑战时，我们需要寻找额外的解决方案.

2Captcha提供了一个很好的解决方案。它可以解决各种类型的验证码，包括我们在本文中提到的ReCAPTCHA。而且，2Captcha提供的API使得我们可以方便地将其整合到我们的Selenium脚本中.

如有帮助，请多关注个人微信公众号：【TechLead】分享AI与云服务研发的全维度知识，谈谈我作为TechLead对技术的独特洞察。 TeahLead KrisChang，10+年的互联网和人工智能从业经验，10年+技术和业务团队管理经验，同济软件工程本科，复旦工程管理硕士，阿里云认证云服务资深架构师，上亿营收AI产品业务负责人.

最后此篇关于Selenium+2Captcha自动化+验证码识别实战的文章就讲到这里了,如果你想了解更多关于Selenium+2Captcha自动化+验证码识别实战的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

27

4

0

文章推荐：【动画进阶】有意思的Emoji3D表情切换效果

文章推荐： MQ消息队列篇：三大MQ产品的必备面试种子题

文章推荐： Unity的BuildPlayerProcessor：深入解析与实用案例

文章推荐： asp.netcore之日志

JavaScript 验证码
我在网上找到了这个很棒的小代码，但它似乎没有在正确删除空格后比较两个字符串？我知道一些js，但这里的任何错误都超出了我的理解范围。希望有人知道这个问题的答案。注意:它似乎还根据 channel 的数
requirejs - 验证码 + RequireJS
如何使用 requirejs 导入 recaptcha。我已经尝试了几件事，但没有任何效果。我需要这样做，以便能够在加载后使用 reCaptcha 的渲染方法自行渲染它。 require.confi
验证码 404 错误
我可以做些什么来尝试解决之前一直有效但现在在尝试访问 javascript 文件时返回 404 的重新验证码问题。我不认为这是编码问题，因为他们今天下午就起来了。值得一提的是，我的两个使用 re-
验证码 IP 地址
好的，我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
robotframework - 使用机器人框架手动输入(验证码)？
我正在使用 Robot Framework + Selenium2Library 为 Web 编写验收测试。关键是 web 包含一些我无法自动化的输入字段 (CAPTCHA)，并且我无法告诉我的供应商
jquery - 验证码:验证困难
我正在尝试实现验证码。我正在使用 jquery (ajax) 调用验证脚本 (http://www.google.com/recaptcha/api/verify)。这将数据类型限制为 JSONP，G
python - Scrapy & 验证码
我在站点中使用 scrapy 提交表单 https://www.barefootstudent.com/jobs (任何进入页面的链接等http://www.barefootstudent.com/l
PHP 验证码 CAPTCHA
我经营一个游戏网站，所以我有很多用户登录，他们可以每两分钟做一次某些事情。我在某些地方有一个 CAPTCHA 系统，对于某些东西，它总是要求输入代码，而对于其他东西，它会每 10 分钟询问一次。我
thinkphp 验证码的使用小结
thinkphp中的验证码是可以直接调用的，非常方便，我们看一下 Think 文件夹下有一个名为verify.class.php的文件首先我们要有一个模
security - 为什么人们公开发布他们的验证码？验证码 : somerandomword
我正在实现一个在注册表单上带有验证码的网站；我的第一次。我已经阅读了数十篇关于支持和反对论点以及所有各种实现的帖子。我对这一切很满意，但对我来说这是必要的邪恶。我不明白的是为什么人们会在整个网络上的
sitecore - WFFM - 验证码 - 值不能为空
我正在使用 Sitecore 8 update 3，目前我向 WFFM 表单添加了验证码并按下音频，但显示错误如下: [ArgumentNullException: Value cannot be n
php - 验证码 GET/POST
我正在对我已经完成的网络系统部分进行一小部分升级，其中之一是确保我的 Google reCaptcha 的安全性正确。目前，我使用此代码: //reCaptcha $Url = "https://w
php - 验证码 GET/POST
我正在对我已经完成的网络系统部分进行一小部分升级，其中之一是确保我的 Google reCaptcha 的安全性正确。目前，我使用此代码: //reCaptcha $Url = "https://w
python - 使用不同的字体创建 3D 验证码
我对制作 3D 验证码很感兴趣，我让它使用一种字体，如下所示: import string from matplotlib.font_manager import findSystemFonts im
javascript - 简单 "Math"验证码
大家。我是jquery初学者，想请教几个问题。我正在为表单提交测试编写一个简单的数学验证码，我想每次按下“重置按钮”时生成一组新的随机数。但是当我用谷歌搜索解决方案时，大多数人都在尝试重新加载页面
css - 验证码 CSS 样式覆盖
我的网站上有一个验证码，我认为样式被其他一些 css 覆盖了，正如您在下面的验证码底部看到的那样，它有点偏离.. 在 firebug 中发现 CSS 覆盖的最佳方法是什么？已经看了一段时间了，似乎无法
java - 如何更新印度铁路网站中添加的 PNR 验证码
我在 Google Play 上有一个 PNR 查询应用程序。它工作得很好。但最近 Indian Railwys 在他们的 PNR 查询部分添加了验证码，因此我无法将正确的数据传递到服务器以获得正确的
php - 创建自定义 joomla 验证码
我被指派为 joomla 中的自定义组件创建验证码验证，但我不知道如何正确地完成它。我知道有许多可用的验证码插件，例如 recaptcha，但我需要使用公司创建的自定义验证码。它在 session
php/JS实现的生成随机密码(验证码)功能示例
本文实例讲述了php/JS实现的生成随机密码(验证码)功能。分享给大家供大家参考，具体如下： PHP写法： ?
reactjs - React Native Firebase 验证码
我正在关注关于电话授权的 React Native firebase 文档 ( https://rnfirebase.io/docs/v5.x.x/auth/phone-auth )，并且对是否需要(

首页

博学

6Ren·AI

商城

Selenium+2Captcha自动化+验证码识别实战

1、引言

1.1 Selenium简介及其应用场景

1.2 验证码的目的与类型

2、Selenium知识

2.1 Selenium安装和配置

2.2 WebDriver简介

2.3 页面元素定位

2.4 操作页面元素

2.5 等待页面加载

2.6 高级操作

3、验证码破解：Selenium使用2Captcha服务实现ReCAPTCHA验证码破解

1.1 2Captcha服务介绍 cn.2captcha.com

cn.2captcha.com

支持验证码类型

支持支付宝支付

3.2 ReCAPTCHA简介

3.3 使用Selenium模拟用户行为

3.4 使用2Captcha自动解决验证码

3.5 结合Selenium和2Captcha破解验证码

3.6 使用Selenium自动填充验证码

3.7 处理图片验证码

3.7 处理其他类型的验证码

4、总结

首页

博学

6Ren·AI

商城

Selenium+2Captcha自动化+验证码识别实战

﻿1、引言

1.1 Selenium简介及其应用场景

1.2 验证码的目的与类型

2、Selenium知识

2.1 Selenium安装和配置

2.2 WebDriver简介

2.3 页面元素定位

2.4 操作页面元素

2.5 等待页面加载

2.6 高级操作

3、验证码破解：Selenium使用2Captcha服务实现ReCAPTCHA验证码破解

1.1 2Captcha服务介绍 cn.2captcha.com

cn.2captcha.com

支持验证码类型

支持支付宝支付

3.2 ReCAPTCHA简介

3.3 使用Selenium模拟用户行为

3.4 使用2Captcha自动解决验证码

3.5 结合Selenium和2Captcha破解验证码

3.6 使用Selenium自动填充验证码

3.7 处理图片验证码

3.7 处理其他类型的验证码

4、总结

1、引言