- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我在站点中使用 scrapy 提交表单 https://www.barefootstudent.com/jobs (任何进入页面的链接等http://www.barefootstudent.com/los_angeles/jobs/full_time/full_time_nanny_needed_in_venice_217021)
我的 scapy 机器人成功登录,但我无法避免验证码。对于表单提交,我使用 scrapy.FormRequest.from_reponse
frq = scrapy.FormRequest.from_response(response, formdata={'message': 'itttttttt',
'security': captcha, 'name': 'fx',
'category_id': '2', 'email': 'ololo%40gmail.com', 'item_id': '216640_2', 'location': '18', 'send_message': 'Send%20Message'
}, callback=self.afterForm)
yield frq
我想从此页面加载验证码图像,并手动输入脚本运行时。等等
captcha = raw_input("put captcha in manually>")
我试试
urllib.urlretrieve(captcha, "./captcha.jpg")
但是这个方法加载了不正确的验证码(网站拒绝我的输入)。我尝试在一个运行脚本中反复调用 urllib.urlretieve,每次他返回不同的验证码 :(
之后我尝试使用 ImagePipeline。但我的问题是,即使我使用 yeild,return item(下载图片)也只会在函数执行完毕后发生。
item = BfsItem()
item['image_urls'] = [captcha]
yield item
captcha = raw_input("put captcha in manually>")
frq = scrapy.FormRequest.from_response(response, formdata={'message': 'itttttttt',
'security': captcha, 'name': 'fx',
'category_id': '2', 'email': 'ololo%40gmail.com', 'item_id': '216640_2', 'location': '18', 'send_message': 'Send%20Message'
}, callback=self.afterForm)
yield frq
当时,当我的脚本请求输入时,图片没有下载!
如何修改我的脚本并在手动输入验证码后调用 FormRequest?
非常感谢!
最佳答案
我使用的方法通常效果很好,看起来像这样(只是一个要点,您需要添加您的具体细节):
第 1 步 - 获取验证码 url(并保留表单的响应以备后用)
def parse_page_with_captcha(response):
captcha_url = response.xpath(...)
data_for_later = {'captcha_form': response} # store the response for later use
return Request(captcha_url, callback=self.parse_captcha_download, meta=data_for_later)
第 2 步 - 现在 scrapy 将下载图像,我们必须在 scrapy 回调中正确处理它
def parse_captcha_download(response):
captcha_target_filename = 'filename.png'
# save the image for processing
i = Image.open(StringIO(response.body))
i.save(captcha_target_filename)
# process the captcha (OCR, or sending it to a decaptcha service, etc ...)
captcha_text = solve_captcha(captcha_target_filename)
# and now we have all the data we need for building the form request
captcha_form = response.meta['captcha_form']
return scrapy.FormRequest.from_response(captcha_form, formdata={'message': 'itttttttt',
'security': captcha_text, 'name': 'fx',
'category_id': '2', 'email': 'ololo%40gmail.com', 'item_id': '216640_2', 'location': '18', 'send_message': 'Send%20Message'
}, callback=self.afterForm)
重要细节
Captcha 保护表单需要某种方式将验证码图像与看到并回答此验证码的特定用户/客户联系起来。这通常是使用基于 cookie 的 session 或隐藏在验证码表单中的特殊参数/图像标记来完成的。
爬虫代码必须小心不要破坏这个链接,否则它会回答一些验证码,而不是它必须回答的验证码。
为什么它不适用于 Verz1Lka 发布的两个示例?
urllib.urlretrieve 方法完全在 scrapy 之外工作。虽然这通常是一个坏主意(这不会利用 scrapy 调度等的好处),但这里的主要问题是:此请求将完全在目标站点用于跟踪的任何 session cookie、url 参数等之外工作验证码被发送到特定的浏览器。
另一方面,使用图像管道的方法在 Scrapy 的规则中运行良好,但这些图像下载计划在稍后完成,因此验证码下载在需要时将不可用。
关于python - Scrapy & 验证码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27948326/
我在网上找到了这个很棒的小代码,但它似乎没有在正确删除空格后比较两个字符串?我知道一些js,但这里的任何错误都超出了我的理解范围。希望有人知道这个问题的答案。 注意:它似乎还根据 channel 的数
如何使用 requirejs 导入 recaptcha。我已经尝试了几件事,但没有任何效果。 我需要这样做,以便能够在加载后使用 reCaptcha 的渲染方法自行渲染它。 require.confi
我可以做些什么来尝试解决之前一直有效但现在在尝试访问 javascript 文件时返回 404 的重新验证码问题。 我不认为这是编码问题,因为他们今天下午就起来了。 值得一提的是,我的两个使用 re-
好的,我们在生产中实现了 Recaptcha。我们收到错误是因为它无法到达使用该服务所需的 IP 地址。我们为 IP 地址打开一个端口以到达 Google。没问题。我们这样做并显式配置该 IP 地址以
我正在使用 Robot Framework + Selenium2Library 为 Web 编写验收测试。关键是 web 包含一些我无法自动化的输入字段 (CAPTCHA),并且我无法告诉我的供应商
我正在尝试实现验证码。我正在使用 jquery (ajax) 调用验证脚本 (http://www.google.com/recaptcha/api/verify)。这将数据类型限制为 JSONP,G
我在站点中使用 scrapy 提交表单 https://www.barefootstudent.com/jobs (任何进入页面的链接等http://www.barefootstudent.com/l
我经营一个游戏网站,所以我有很多用户登录,他们可以每两分钟做一次某些事情。 我在某些地方有一个 CAPTCHA 系统,对于某些东西,它总是要求输入代码,而对于其他东西,它会每 10 分钟询问一次。 我
thinkphp中的验证码是可以直接调用的,非常方便,我们看一下 Think 文件夹下 有一个名为verify.class.php的文件 首先 我们要有一个模
我正在实现一个在注册表单上带有验证码的网站;我的第一次。我已经阅读了数十篇关于支持和反对论点以及所有各种实现的帖子。我对这一切很满意,但对我来说这是必要的邪恶。 我不明白的是为什么人们会在整个网络上的
我正在使用 Sitecore 8 update 3,目前我向 WFFM 表单添加了验证码并按下音频,但显示错误如下: [ArgumentNullException: Value cannot be n
我正在对我已经完成的网络系统部分进行一小部分升级,其中之一是确保我的 Google reCaptcha 的安全性正确。 目前,我使用此代码: //reCaptcha $Url = "https://w
我正在对我已经完成的网络系统部分进行一小部分升级,其中之一是确保我的 Google reCaptcha 的安全性正确。 目前,我使用此代码: //reCaptcha $Url = "https://w
我对制作 3D 验证码很感兴趣,我让它使用一种字体,如下所示: import string from matplotlib.font_manager import findSystemFonts im
大家。我是jquery初学者,想请教几个问题。 我正在为表单提交测试编写一个简单的数学验证码,我想每次按下“重置按钮”时生成一组新的随机数。 但是当我用谷歌搜索解决方案时,大多数人都在尝试重新加载页面
我的网站上有一个验证码,我认为样式被其他一些 css 覆盖了,正如您在下面的验证码底部看到的那样,它有点偏离.. 在 firebug 中发现 CSS 覆盖的最佳方法是什么?已经看了一段时间了,似乎无法
我在 Google Play 上有一个 PNR 查询应用程序。它工作得很好。但最近 Indian Railwys 在他们的 PNR 查询部分添加了验证码,因此我无法将正确的数据传递到服务器以获得正确的
我被指派为 joomla 中的自定义组件创建验证码验证,但我不知道如何正确地完成它。 我知道有许多可用的验证码插件,例如 recaptcha,但我需要使用公司创建的自定义验证码。 它在 session
本文实例讲述了php/JS实现的生成随机密码(验证码)功能。分享给大家供大家参考,具体如下: PHP写法: ?
我正在关注关于电话授权的 React Native firebase 文档 ( https://rnfirebase.io/docs/v5.x.x/auth/phone-auth ),并且对是否需要(
我是一名优秀的程序员,十分优秀!