python - Scrapy & 验证码-6ren

python - Scrapy & 验证码

转载作者：太空宇宙更新时间：2023-11-03 11:51:01

30

4

我在站点中使用 scrapy 提交表单 https://www.barefootstudent.com/jobs (任何进入页面的链接等http://www.barefootstudent.com/los_angeles/jobs/full_time/full_time_nanny_needed_in_venice_217021)

我的 scapy 机器人成功登录，但我无法避免验证码。对于表单提交，我使用 scrapy.FormRequest.from_reponse

frq = scrapy.FormRequest.from_response(response, formdata={'message': 'itttttttt', 
                                   'security': captcha, 'name': 'fx',
                                   'category_id': '2', 'email': 'ololo%40gmail.com', 'item_id': '216640_2', 'location': '18', 'send_message': 'Send%20Message'
                                   }, callback=self.afterForm)

    yield frq

我想从此页面加载验证码图像，并手动输入脚本运行时。等等

captcha = raw_input("put captcha in manually>")

我试试

 urllib.urlretrieve(captcha, "./captcha.jpg")

但是这个方法加载了不正确的验证码(网站拒绝我的输入)。我尝试在一个运行脚本中反复调用 urllib.urlretieve，每次他返回不同的验证码 :(

之后我尝试使用 ImagePipeline。但我的问题是，即使我使用 yeild，return item(下载图片)也只会在函数执行完毕后发生。

 item = BfsItem()
 item['image_urls'] = [captcha]
 yield item
 captcha = raw_input("put captcha in manually>")  
 frq = scrapy.FormRequest.from_response(response, formdata={'message': 'itttttttt', 
                                   'security': captcha, 'name': 'fx',
                                   'category_id': '2', 'email': 'ololo%40gmail.com', 'item_id': '216640_2', 'location': '18', 'send_message': 'Send%20Message'
                                   }, callback=self.afterForm)
 yield frq

当时，当我的脚本请求输入时，图片没有下载!

如何修改我的脚本并在手动输入验证码后调用 FormRequest？

非常感谢!

最佳答案

我使用的方法通常效果很好，看起来像这样(只是一个要点，您需要添加您的具体细节):

第 1 步 - 获取验证码 url(并保留表单的响应以备后用)

def parse_page_with_captcha(response):
    captcha_url = response.xpath(...)
    data_for_later = {'captcha_form': response} # store the response for later use
    return Request(captcha_url, callback=self.parse_captcha_download, meta=data_for_later)

第 2 步 - 现在 scrapy 将下载图像，我们必须在 scrapy 回调中正确处理它

def parse_captcha_download(response):
    captcha_target_filename = 'filename.png'
    # save the image for processing
    i = Image.open(StringIO(response.body))
    i.save(captcha_target_filename)

    # process the captcha (OCR, or sending it to a decaptcha service, etc ...)
    captcha_text = solve_captcha(captcha_target_filename)

    # and now we have all the data we need for building the form request
    captcha_form = response.meta['captcha_form']

    return scrapy.FormRequest.from_response(captcha_form, formdata={'message': 'itttttttt', 
                               'security': captcha_text, 'name': 'fx',
                               'category_id': '2', 'email': 'ololo%40gmail.com', 'item_id': '216640_2', 'location': '18', 'send_message': 'Send%20Message'
                               }, callback=self.afterForm)

重要细节

Captcha 保护表单需要某种方式将验证码图像与看到并回答此验证码的特定用户/客户联系起来。这通常是使用基于 cookie 的 session 或隐藏在验证码表单中的特殊参数/图像标记来完成的。

爬虫代码必须小心不要破坏这个链接，否则它会回答一些验证码，而不是它必须回答的验证码。

为什么它不适用于 Verz1Lka 发布的两个示例？

urllib.urlretrieve 方法完全在 scrapy 之外工作。虽然这通常是一个坏主意(这不会利用 scrapy 调度等的好处)，但这里的主要问题是:此请求将完全在目标站点用于跟踪的任何 session cookie、url 参数等之外工作验证码被发送到特定的浏览器。

另一方面，使用图像管道的方法在 Scrapy 的规则中运行良好，但这些图像下载计划在稍后完成，因此验证码下载在需要时将不可用。

关于python - Scrapy & 验证码，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27948326/

30

4

0

文章推荐： python - scipy.sparse 函数会释放 GIL 吗？

文章推荐： c# - 与 .net 中的 Web 服务共享接口(interface)

文章推荐： c# - ActiveX 对象和 .NET 垃圾收集器

JavaScript 验证码
我在网上找到了这个很棒的小代码，但它似乎没有在正确删除空格后比较两个字符串？我知道一些js，但这里的任何错误都超出了我的理解范围。希望有人知道这个问题的答案。注意:它似乎还根据 channel 的数
requirejs - 验证码 + RequireJS
如何使用 requirejs 导入 recaptcha。我已经尝试了几件事，但没有任何效果。我需要这样做，以便能够在加载后使用 reCaptcha 的渲染方法自行渲染它。 require.confi
验证码 404 错误
我可以做些什么来尝试解决之前一直有效但现在在尝试访问 javascript 文件时返回 404 的重新验证码问题。我不认为这是编码问题，因为他们今天下午就起来了。值得一提的是，我的两个使用 re-
验证码 IP 地址
好的，我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
robotframework - 使用机器人框架手动输入(验证码)？
我正在使用 Robot Framework + Selenium2Library 为 Web 编写验收测试。关键是 web 包含一些我无法自动化的输入字段 (CAPTCHA)，并且我无法告诉我的供应商
jquery - 验证码:验证困难
我正在尝试实现验证码。我正在使用 jquery (ajax) 调用验证脚本 (http://www.google.com/recaptcha/api/verify)。这将数据类型限制为 JSONP，G
python - Scrapy & 验证码
我在站点中使用 scrapy 提交表单 https://www.barefootstudent.com/jobs (任何进入页面的链接等http://www.barefootstudent.com/l
PHP 验证码 CAPTCHA
我经营一个游戏网站，所以我有很多用户登录，他们可以每两分钟做一次某些事情。我在某些地方有一个 CAPTCHA 系统，对于某些东西，它总是要求输入代码，而对于其他东西，它会每 10 分钟询问一次。我
thinkphp 验证码的使用小结
thinkphp中的验证码是可以直接调用的，非常方便，我们看一下 Think 文件夹下有一个名为verify.class.php的文件首先我们要有一个模
security - 为什么人们公开发布他们的验证码？验证码 : somerandomword
我正在实现一个在注册表单上带有验证码的网站；我的第一次。我已经阅读了数十篇关于支持和反对论点以及所有各种实现的帖子。我对这一切很满意，但对我来说这是必要的邪恶。我不明白的是为什么人们会在整个网络上的
sitecore - WFFM - 验证码 - 值不能为空
我正在使用 Sitecore 8 update 3，目前我向 WFFM 表单添加了验证码并按下音频，但显示错误如下: [ArgumentNullException: Value cannot be n
php - 验证码 GET/POST
我正在对我已经完成的网络系统部分进行一小部分升级，其中之一是确保我的 Google reCaptcha 的安全性正确。目前，我使用此代码: //reCaptcha $Url = "https://w
php - 验证码 GET/POST
我正在对我已经完成的网络系统部分进行一小部分升级，其中之一是确保我的 Google reCaptcha 的安全性正确。目前，我使用此代码: //reCaptcha $Url = "https://w
python - 使用不同的字体创建 3D 验证码
我对制作 3D 验证码很感兴趣，我让它使用一种字体，如下所示: import string from matplotlib.font_manager import findSystemFonts im
javascript - 简单 "Math"验证码
大家。我是jquery初学者，想请教几个问题。我正在为表单提交测试编写一个简单的数学验证码，我想每次按下“重置按钮”时生成一组新的随机数。但是当我用谷歌搜索解决方案时，大多数人都在尝试重新加载页面
css - 验证码 CSS 样式覆盖
我的网站上有一个验证码，我认为样式被其他一些 css 覆盖了，正如您在下面的验证码底部看到的那样，它有点偏离.. 在 firebug 中发现 CSS 覆盖的最佳方法是什么？已经看了一段时间了，似乎无法
java - 如何更新印度铁路网站中添加的 PNR 验证码
我在 Google Play 上有一个 PNR 查询应用程序。它工作得很好。但最近 Indian Railwys 在他们的 PNR 查询部分添加了验证码，因此我无法将正确的数据传递到服务器以获得正确的
php - 创建自定义 joomla 验证码
我被指派为 joomla 中的自定义组件创建验证码验证，但我不知道如何正确地完成它。我知道有许多可用的验证码插件，例如 recaptcha，但我需要使用公司创建的自定义验证码。它在 session
php/JS实现的生成随机密码(验证码)功能示例
本文实例讲述了php/JS实现的生成随机密码(验证码)功能。分享给大家供大家参考，具体如下： PHP写法： ?
reactjs - React Native Firebase 验证码
我正在关注关于电话授权的 React Native firebase 文档 ( https://rnfirebase.io/docs/v5.x.x/auth/phone-auth )，并且对是否需要(

首页

博学

6Ren·AI

商城

python - Scrapy & 验证码