gpt4 book ai didi

python - scrapy爬虫的请求被阻塞。使用requests库的请求可以正常访问。什么原因?

转载 作者:太空宇宙 更新时间:2023-11-03 20:04:29 24 4
gpt4 key购买 nike

利用scrapy框架,我制定了以下策略:
1. 随机用户代理
2.代理IP池
3. 长达15秒的下载间隔,以及随机请求间隔
4.禁用cookie
5.设置并发数为8

但是不行,因为第一个请求的响应码是500,其他请求的响应码都是500

<小时/>

然后我尝试使用 requests 库

  1. 使用相同的代理池,
  2. 随机用户代理
  3. 并发数为 12

使用requests库是正常的。它的响应代码是200。

是什么原因造成的?

最佳答案

有很多客户端库/网络产品可以阻止来自网络抓取库的收入请求。

通常,这些工具会检查这些抓取器库发送的常见请求 header ,因此仔细检查它们的存在可能会很有用

How websites block web crawlers

关于python - scrapy爬虫的请求被阻塞。使用requests库的请求可以正常访问。什么原因?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59047912/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com