gpt4 book ai didi

python - 如何向另一个具有不同设置的蜘蛛产生 Scrapy 请求?

转载 作者:太空宇宙 更新时间:2023-11-04 09:57:31 25 4
gpt4 key购买 nike

这个问题本质上和Pass scraped URL's from one spider to another是一样的,但我想仔细检查一下是否没有“Scrapy-native”的方式来做到这一点。

我正在抓取网页,99% 的时间都可以在不渲染 JavaScript 的情况下成功抓取。然而,有时这会失败并且某些 Field 不存在。我想写一个 Scrapy Extension使用 item_scraped 方法检查是否填充了所有预期的字段,如果没有填充,则向具有 custom_settings 的不同蜘蛛产生一个 SplashRequest 包括 Splash 设置(参见 https://blog.scrapinghub.com/2015/03/02/handling-javascript-in-scrapy-with-splash/)。

是否有任何 Scrapy 方法可以在不使用外部服务(如 Redis)的情况下做到这一点?

最佳答案

启用 scrapy-splash 只会使 SplashRequest 工作,它不会影响常规的 scrapy.Request(如果 request.meta 中没有“splash”)。

您可以包含 Splash 设置并仍然产生 scrapy.Request - 它们将在没有 Splash 的情况下进行处理。

关于python - 如何向另一个具有不同设置的蜘蛛产生 Scrapy 请求?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45212839/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com