gpt4 book ai didi

web-scraping - 如何防止在抓取亚马逊时被列入黑名单

转载 作者:行者123 更新时间:2023-12-04 23:41:18 29 4
gpt4 key购买 nike

关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

2年前关闭。




Improve this question




我尝试通过 Scrapy 抓取 Amazon。
但我有这个错误

DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3A6356734031%2Cp_76%3A437878031> 
(failed 1 times): 503 Service Unavailable

我认为这是因为 = 亚马逊非常擅长检测机器人。
我怎样才能防止这种情况?

我用过 time.sleep(6)在每个请求之前。

我不想使用他们的 API。

我试过用 Tor 和 polipo

最佳答案

您必须对亚马逊非常小心,并遵守亚马逊使用条款和与网络抓取相关的政策。

亚马逊非常擅长禁止机器人的 IP。您必须调整 DOWNLOAD_DELAY CONCURRENT_REQUESTS 减少访问网站的频率并成为一个良好的网络抓取公民。而且,您需要轮换 IP 地址(例如,您可以查看 crawlera )和 user agents .

关于web-scraping - 如何防止在抓取亚马逊时被列入黑名单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37077489/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com