gpt4 book ai didi

python - 如果我在 Scrapy 中收到 500 内部服务器错误,我该如何跳过该 URL?

转载 作者:太空狗 更新时间:2023-10-30 00:55:52 24 4
gpt4 key购买 nike

我正在从几千个页面中抓取数据,一般 URL 为:

http://example.com/database/?id=(some number)

我在其中运行 ID 号。

我不断遇到生成 500 内部服务器错误的大量 URL,并且 scrapy 出于某种原因多次遍历这些 block 。这会占用很多时间,所以我想知道是否有一种方法可以立即移动到下一个 URL 而不会多次发送 scrapy 发送请求。

最佳答案

重试 500 次错误的组件是 RetryMiddleware .

如果您不希望 Scrapy 重试收到 500 状态代码的请求,在您的 settings.py 中,您可以将 RETRY_HTTP_CODES 设置为不包括 500(默认为 [500, 502, 503, 504, 400, 408]),或者使用 RETRY_ENABLED = False

一起禁用 RetryMiddleware

参见 RetryMiddleware settings了解更多。

关于python - 如果我在 Scrapy 中收到 500 内部服务器错误,我该如何跳过该 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23797421/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com