gpt4 book ai didi

python - Scrapy 抓取被 403/503 阻止

转载 作者:行者123 更新时间:2023-12-01 04:44:43 25 4
gpt4 key购买 nike

我正在运行 Scrapy 0.24.4,并且遇到了很多网站非常快地关闭爬行,通常在 5 个请求之内。网站为每个请求返回 403 或 503,Scrapy 放弃。我正在运行 100 个代理池,并启用了 RotateUserAgentMiddleware

有谁知道即使代理和用户代理发生变化,网站如何能够快速识别 Scrapy? Scrapy 不会在请求 header 中添加任何内容来泄露它,不是吗?

最佳答案

某些网站包含需要运行的 JavaScript 代码。Scrapy 不执行 javascript 代码,因此网络应用程序很快就知道它是一个机器人。

http://scraping.pro/javascript-protected-content-scrape/

尝试对返回 403 的网站使用 selenium。如果使用 selenium 进行爬网有效,则可以假设问题出在 javascript 中。我认为 crunchbase.com 使用了这种防止抓取的保护措施。

关于python - Scrapy 抓取被 403/503 阻止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29758554/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com