gpt4 book ai didi

python - Scrapy 中的验证码

转载 作者:太空狗 更新时间:2023-10-29 22:27:46 25 4
gpt4 key购买 nike

我正在开发一个 Scrapy 应用程序,我正在尝试使用使用验证码(这不是垃圾邮件)的表单登录网站。我正在使用 ImagesPipeline 下载验证码,并将其打印到屏幕上供用户解决。到目前为止一切顺利。

我的问题是如何重启爬虫,提交验证码/表单信息?现在我的蜘蛛程序请求验证码页面,然后返回一个包含验证码的 image_urlItem。然后由 ImagesPipeline 处理/下载,并显示给用户。我不清楚如何恢复蜘蛛的进度,并将已解决的 captcha 和相同的 session 传递给蜘蛛,因为我相信蜘蛛必须在 ImagesPipeline 转到之前返回项目(例如退出)工作。

我查看了文档和示例,但没有找到任何明确说明如何实现这一点的文档和示例。

最佳答案

这就是您可能让它在蜘蛛内部工作的方式。

self.crawler.engine.pause()
process_my_captcha()
self.crawler.engine.unpause()

收到请求后,暂停引擎,显示图像,读取用户信息并通过提交 POST 登录请求恢复抓取。

我很想知道这种方法是否适用于您的情况。

关于python - Scrapy 中的验证码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6646053/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com