gpt4 book ai didi

web-scraping - 特定站点的 Scrapy 和 Splash 超时

转载 作者:行者123 更新时间:2023-12-04 05:11:55 25 4
gpt4 key购买 nike

尝试从这个 site 获取响应时,我遇到了 ScrapyCrawleraSplash 的问题.

我尝试了以下但没有成功:

  • Scrapy shell - 超时
  • Scrapy + Crawlera - 超时
  • Scrapinghub Splash 实例(小)- 超时

但是我可以使用 Selenium 的 Firefox webdriver 抓取网站。但我想摆脱它,改用 Splash

是否有避免这些超时的解决方法?

注意:

如果我使用由 aquarium 设置的本地 Splash 实例站点加载,但与 Firefox 网络驱动程序的 10 秒相比,它仍然需要 20 多秒。

最佳答案

尝试增加 Splash 的超时时间。如果您使用 Docker 运行 Splash,请将参数 --max-timeout 设置为更大的值,例如3600(有关更多信息,请查看 documentation)。

接下来,在您的 Splash 请求中,也创建超时。如果你使用 scrapy-splash库,然后将 SplashRequest 参数 timeout 设置为更高的值,例如3600。像这样:

yield scrapy_splash.SplashRequest(
url, self.parse, endpoint='execute',
args={'lua_source': script, 'timeout': 3600})

关于web-scraping - 特定站点的 Scrapy 和 Splash 超时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48322209/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com