gpt4 book ai didi

python - 使用 scrapy 爬取 SSL 站点

转载 作者:太空狗 更新时间:2023-10-30 00:49:19 27 4
gpt4 key购买 nike

我要爬https://dms.psc.sc.gov/Web/dockets它使用使用 scrapy 框架的 TLS v1.2。但是在请求 URL 时它无法加载并引发 [<twisted.python.failure.Failure <class 'OpenSSL.SSL.Error'>>] .

在 git https://github.com/scrapy/scrapy/issues/981 上讨论了问题但它对我不起作用。我有 scrapy v 0.24.5 和 twisted 版本 >=14。

当我尝试抓取另一个也使用 TLS v1.2 的站点时,它可以工作,但不适用于 https://dms.psc.sc.gov .如何解决这个问题?

最佳答案

PR fixing this problem在 Scrapy 中已经合并了。最近(2016 年 2 月)有另一个拉取请求修复 similar bug

我看到使用最新的 Scrapy 版本我可以很好地获取你的页面,但是使用旧版本问题仍然出现。

一般来说,如果你在使用 Scrapy 时遇到 HTTP-s 问题,解决方案是:

  • 升级Scrapy到最新版本
  • 检查您使用的 Twisted 版本,如果它不是对最新 Twisted 版本的最新更新(截至撰写本文时,确认 14 以上的版本在 SSL 方面明显更好)

如果您在更新 Scrapy 和 Twisted 后仍然遇到问题,您可能需要子类化 ScrapyClientContextFactory - 请参阅下面的答案了解详细信息。

更多详情请参见 this github issue

关于python - 使用 scrapy 爬取 SSL 站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31027587/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com