验证码识别全流程实战

转载作者：我是一只小鸟更新时间：2023-07-31 14:31:46

24

4

本文将介绍验证码的历史与发展、验证码破解的历史与发展，验证码破解全流程实战.

验证码的历史与发展

file

验证码，全称为“Completely Automated Public Turing test to tell Computers and Humans Apart”，即全自动区分计算机和人类的图灵测试，Captcha。早在上个世纪90年代，为了防止恶意的网络机器人行为，像邮件轰炸、暴力破解密码等，验证码应运而生.

最初的验证码是简单的文本字符，如用户只需输入一组扭曲的字母和数字。然后验证码发展到图像验证码，例如，要求用户识别哪些图片中包含某个特定对象（比如猫、狗或汽车等）。随着技术的发展，更为复杂的验证码类型出现了，例如逻辑验证码（例如，3+4=?），音频验证码（用户必须听音频然后输入听到的字符）和3D验证码（用户需要解读3D对象或者场景）.

此外，也有一些新的验证码设计，为了提高用户体验同时维护网站安全，它们需要用户进行更为人性化的操作。例如，滑动验证码让用户通过滑动解锁，点击验证码让用户点击特定的图片或文字，旋转验证码则要求用户调整图片到正确的方向.

一些大公司也开发了自己的验证码系统。例如，Google的reCAPTCHA v2引入了复杂的图像识别任务，需要用户选择包含特定物体（如汽车，交通灯）的图片；而Google的reCAPTCHA v3则摒弃了用户交互的方式，通过分析用户的行为模式来确定是人类还是机器。同样，第三方验证服务如GeeTest CAPTCHA和hCaptcha等，也为网站提供了验证服务，使得他们可以更好地防止自动化的恶意行为.

验证码破解的历史与发展

验证码破解的历史，与验证码的发展紧密相连。早期的验证码破解主要依赖于OCR（Optical Character Recognition，光学字符识别）技术，这是一种将图像中的文本转换为机器可读的字符的技术，用于识别简单的文本验证码.

然而，随着验证码的复杂性的增加，验证码破解也需要更为复杂的技术。例如，对于图像验证码，可能需要使用图像处理技术来处理噪声和扭曲。这可能包括灰度化（将图像转换为黑白），二值化（将图像进一步简化为只有黑和白两种颜色），边缘检测（识别图像中的边缘）等步骤.

对于更为复杂的验证码，例如点击验证码和旋转验证码，可能需要使用更复杂的机器视觉技术。这可能涉及到特征提取（识别图像中的重要特征），对象识别（识别特定的对象或形状），甚至深度学习（训练模型来识别复杂的模式）.

近年来，随着人工智能的发展，机器学习和深度学习等技术也被应用于验证码破解中。例如，卷积神经网络（CNN）已经被用来识别复杂的图像验证码，而递归神经网络（RNN）可以用于识别音频验证码。这些模型通过在大量的数据上进行训练，可以学习到识别验证码的复杂模式，大大提高了验证码破解的准确性和效率.

新时代高精准识别验证码的人工服务

人工验证码识别服务是一种基于人工智能或人工劳动力的验证码识别解决方案。当机器无法识别复杂的验证码时，这种服务能够提供相对高效且准确的解决方案.

file

2Captcha

2Captcha是一种基于人工劳动力的验证码识别服务。它提供了一个API接口，允许开发者将无法识别的验证码发送到2Captcha服务。然后2Captcha的工人会手动识别并返回结果。这种服务对处理图像验证码、文本验证码、点击类验证码、GeeTest、reCAPTCHA、FunCaptcha等复杂验证码有很高的准确率，并且提供多种编程语言的接口文档Python、PHP、Java、Go、Ruby、C++、C#。2Captcha的主要优点是其优异的精确性和灵活的API，使得开发者可以轻松集成并在不同环境中使用.

云码

云码基于图像识别技术和人工辅助提供验证码识别服务，提供在线普通图片、滑动、点选、谷歌、HCaptcha、数字计算题验证码识别服务。其对于图像类的验证码有比较好的效果，尤其是各种不同类型的图像验证码。但其对于复杂的验证码存在准确率下降和识别时间较长的情况、验证码种类跟进相较也会慢一些.

冰拓

冰拓可识别各种常见图片验证码，AI识别 + 真人识别双模式，可高效识别坐标题、计算题、字符题、滑块题、拼图题等各种图片。API支持Python、JAVA、PHP、JAVASCRIPT调用，支持按键精灵集成。对于多样化的滑块、拼图、旋转、坐标有自己独特的处理方法和提供定制服务，不支持谷歌验证码.

超级鹰

超级鹰是专业的人工打码平台，对图片数据进行精准、快速分类处理，并实时返还分类结果。支持英文数字、中文汉字、坐标选择计算等多种类型图片验证码，并且提供定制化的验证码识别服务。对于通用的验证码、传统验证码有较好的识别效果，但对于复杂验证码尚未提供更多服务.

验证码破解实战

以2Captcha破解reCAPTCHA v2为例

1. 注册2Captcha， https://cn.2captcha.com/ ，支持支付宝充值

file

2. 目标破解https://www.scrapebay.com/spam 网站reCAPTCHA v2

file

3. 拿到2Captcha API_KEY

file

4. 拿到google sitekey

file
file

5. 破解验证码

安装2captcha-python 。

                        
                          pip3 install 2captcha-python

破解验证码。

                        
                          # 导入BeautifulSoup、TwoCaptcha、requests库
from bs4 import BeautifulSoup
from twocaptcha import TwoCaptcha
import requests

# TwoCaptcha服务的API秘钥，你需要使用自己的
API_KEY = 'xxxxxxxxxxxxxx'
# 利用TwoCaptcha库，使用提供的API秘钥初始化一个solver对象，该对象可以解决ReCAPTCHA问题
solver = TwoCaptcha(API_KEY)
# 要抓取的网页的URL
url = "https://www.scrapebay.com/spam"
# 这是ReCAPTCHA的site key，可以从网页源码中找到。
site_key='6LfGNEoeAAAAALUsU1OWRJnNsF1xUvoai0tV090n'

# 这个函数用来获取CSRF token和cookies。它首先通过requests.get()获取页面内容，然后通过BeautifulSoup找到CSRF token。最后返回CSRF token和cookies。
def get_csrf_cookie(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "lxml")
    csrf_el = soup.select_one('[name=csrfmiddlewaretoken]')
    csrf = csrf_el['value']
    cokkies = response.cookies
    return csrf, cokkies

# 这个函数用来解决ReCAPTCHA问题。它使用TwoCaptcha solver对象的recaptcha()方法，如果发生异常则打印错误并退出。
def solve(url,sitekey):
    try:
        result = solver.recaptcha(sitekey=sitekey, url=url)
    except Exception as e:
        print(e)
        exit()
    return result

# 首先通过get_csrf_cookie(url)获取CSRF token和cookies，然后通过solve(url,site_key)解决ReCAPTCHA问题，获得ReCAPTCHA的验证码结果
def main():
    csrf,cokkies = get_csrf_cookie(url)
    print("csrf:",csrf)
    print("cokkies:",cokkies)
    result = solve(url,site_key)
    print("captcha:",result)
   

if __name__ == "__main__":
    main()

运行结果:

6. 获得验证码后的页面数据

包含破解验证码的全部代码如下:

                        
                          # 导入BeautifulSoup、TwoCaptcha、requests库
from bs4 import BeautifulSoup
from twocaptcha import TwoCaptcha
import requests

# 2Captcha服务的API秘钥，你需要使用自己的
API_KEY = 'xxxxxxxxxxxxxx'
# 利用TwoCaptcha库，使用提供的API秘钥初始化一个solver对象，该对象可以解决ReCAPTCHA问题
solver = TwoCaptcha(API_KEY)
# 要抓取的网页的URL
url = "https://www.scrapebay.com/spam"
# 这是ReCAPTCHA的site key，可以从网页源码中找到。
site_key='6LfGNEoeAAAAALUsU1OWRJnNsF1xUvoai0tV090n'

# 这个函数用来获取CSRF token和cookies。它首先通过requests.get()获取页面内容，然后通过BeautifulSoup找到CSRF token。最后返回CSRF token和cookies。
def get_csrf_cookie(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.text, "lxml")
    csrf_el = soup.select_one('[name=csrfmiddlewaretoken]')
    csrf = csrf_el['value']
    cokkies = response.cookies
    return csrf, cokkies

# 这个函数用来解决ReCAPTCHA问题。它使用TwoCaptcha solver对象的recaptcha()方法，如果发生异常则打印错误并退出。
def solve(url,sitekey):
    try:
        result = solver.recaptcha(sitekey=sitekey, url=url)
    except Exception as e:
        print(e)
        exit()
    return result

# 这个函数用来提交解决ReCAPTCHA后的页面。它首先构建一个POST请求的payload，然后通过requests.post()方法发送请求。最后返回网页的最后一列的文本。
def post_page(url, csrf, cookie, result):
    payload = 'csrfmiddlewaretoken={}&g-recaptcha-response={}'
    headers = {
        'Content-Type': 'application/x-www-form-urlencoded',
        'Referer': 'https://www.scrapebay.com/spam'
    }
    response = requests.post(url,data=payload.format(csrf,result),headers=headers,cookies=cookie)
    soup = BeautifulSoup(response.text, "lxml")
    el = soup.select_one('td:last-child')
    return el.get_text()

# 先通过get_csrf_cookie(url)获取CSRF token和cookies，然后通过solve(url,site_key)解决ReCAPTCHA问题，最后通过post_page(url,csrf,cokkies,result)提交页面并打印出结果。
def main():
    csrf,cokkies = get_csrf_cookie(url)
    print("csrf:",csrf)
    print("cokkies:",cokkies)
    result = solve(url,site_key)
    print("captcha:",result)
    data = post_page(url,csrf,cokkies,result)
    print("result:",data)

if __name__ == "__main__":
    main()

网站验证后的页面:

运行结果:

7. 结束

至此我们使用2Captcha服务破解了reCAPTCHA v2，并获得了需要爬取的内容。2Captcha服务包含多种验证码格式，均可以使用上述的流程，修改其中不同验证码的细节部分，攻克验证码的识别难点.

如有帮助，请多关注个人微信公众号：【TechLead】分享AI与云服务研发的全维度知识，谈谈我作为TechLead对技术的独特洞察。 TeahLead KrisChang，10+年的互联网和人工智能从业经验，10年+技术和业务团队管理经验，同济软件工程本科，复旦工程管理硕士，阿里云认证云服务资深架构师，上亿营收AI产品业务负责人.

最后此篇关于验证码识别全流程实战的文章就讲到这里了,如果你想了解更多关于验证码识别全流程实战的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

24

4

0

文章推荐：线段树

文章推荐： react18hooks自定义移动端Popup弹窗组件RcPop

文章推荐：【手写系列】手把手教你如何实现列表转树-树转列表

文章推荐：竞速榜实时离线对数方案演进介绍

JavaScript 验证码
我在网上找到了这个很棒的小代码，但它似乎没有在正确删除空格后比较两个字符串？我知道一些js，但这里的任何错误都超出了我的理解范围。希望有人知道这个问题的答案。注意:它似乎还根据 channel 的数
requirejs - 验证码 + RequireJS
如何使用 requirejs 导入 recaptcha。我已经尝试了几件事，但没有任何效果。我需要这样做，以便能够在加载后使用 reCaptcha 的渲染方法自行渲染它。 require.confi
验证码 404 错误
我可以做些什么来尝试解决之前一直有效但现在在尝试访问 javascript 文件时返回 404 的重新验证码问题。我不认为这是编码问题，因为他们今天下午就起来了。值得一提的是，我的两个使用 re-
验证码 IP 地址
好的，我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
robotframework - 使用机器人框架手动输入(验证码)？
我正在使用 Robot Framework + Selenium2Library 为 Web 编写验收测试。关键是 web 包含一些我无法自动化的输入字段 (CAPTCHA)，并且我无法告诉我的供应商
jquery - 验证码:验证困难
我正在尝试实现验证码。我正在使用 jquery (ajax) 调用验证脚本 (http://www.google.com/recaptcha/api/verify)。这将数据类型限制为 JSONP，G
python - Scrapy & 验证码
我在站点中使用 scrapy 提交表单 https://www.barefootstudent.com/jobs (任何进入页面的链接等http://www.barefootstudent.com/l
PHP 验证码 CAPTCHA
我经营一个游戏网站，所以我有很多用户登录，他们可以每两分钟做一次某些事情。我在某些地方有一个 CAPTCHA 系统，对于某些东西，它总是要求输入代码，而对于其他东西，它会每 10 分钟询问一次。我
thinkphp 验证码的使用小结
thinkphp中的验证码是可以直接调用的，非常方便，我们看一下 Think 文件夹下有一个名为verify.class.php的文件首先我们要有一个模
security - 为什么人们公开发布他们的验证码？验证码 : somerandomword
我正在实现一个在注册表单上带有验证码的网站；我的第一次。我已经阅读了数十篇关于支持和反对论点以及所有各种实现的帖子。我对这一切很满意，但对我来说这是必要的邪恶。我不明白的是为什么人们会在整个网络上的
sitecore - WFFM - 验证码 - 值不能为空
我正在使用 Sitecore 8 update 3，目前我向 WFFM 表单添加了验证码并按下音频，但显示错误如下: [ArgumentNullException: Value cannot be n
php - 验证码 GET/POST
我正在对我已经完成的网络系统部分进行一小部分升级，其中之一是确保我的 Google reCaptcha 的安全性正确。目前，我使用此代码: //reCaptcha $Url = "https://w
php - 验证码 GET/POST
我正在对我已经完成的网络系统部分进行一小部分升级，其中之一是确保我的 Google reCaptcha 的安全性正确。目前，我使用此代码: //reCaptcha $Url = "https://w
python - 使用不同的字体创建 3D 验证码
我对制作 3D 验证码很感兴趣，我让它使用一种字体，如下所示: import string from matplotlib.font_manager import findSystemFonts im
javascript - 简单 "Math"验证码
大家。我是jquery初学者，想请教几个问题。我正在为表单提交测试编写一个简单的数学验证码，我想每次按下“重置按钮”时生成一组新的随机数。但是当我用谷歌搜索解决方案时，大多数人都在尝试重新加载页面
css - 验证码 CSS 样式覆盖
我的网站上有一个验证码，我认为样式被其他一些 css 覆盖了，正如您在下面的验证码底部看到的那样，它有点偏离.. 在 firebug 中发现 CSS 覆盖的最佳方法是什么？已经看了一段时间了，似乎无法
java - 如何更新印度铁路网站中添加的 PNR 验证码
我在 Google Play 上有一个 PNR 查询应用程序。它工作得很好。但最近 Indian Railwys 在他们的 PNR 查询部分添加了验证码，因此我无法将正确的数据传递到服务器以获得正确的
php - 创建自定义 joomla 验证码
我被指派为 joomla 中的自定义组件创建验证码验证，但我不知道如何正确地完成它。我知道有许多可用的验证码插件，例如 recaptcha，但我需要使用公司创建的自定义验证码。它在 session
php/JS实现的生成随机密码(验证码)功能示例
本文实例讲述了php/JS实现的生成随机密码(验证码)功能。分享给大家供大家参考，具体如下： PHP写法： ?
reactjs - React Native Firebase 验证码
我正在关注关于电话授权的 React Native firebase 文档 ( https://rnfirebase.io/docs/v5.x.x/auth/phone-auth )，并且对是否需要(

首页

博学

6Ren·AI

商城

验证码识别全流程实战

验证码的历史与发展

验证码破解的历史与发展

新时代高精准识别验证码的人工服务

2Captcha

云码

冰拓

超级鹰

验证码破解实战

以2Captcha破解reCAPTCHA v2为例

1. 注册2Captcha， https://cn.2captcha.com/ ，支持支付宝充值

2. 目标破解https://www.scrapebay.com/spam 网站reCAPTCHA v2

3. 拿到2Captcha API_KEY

4. 拿到google sitekey

5. 破解验证码

6. 获得验证码后的页面数据

7. 结束