作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。
想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。
2年前关闭。
Improve this question
我尝试通过 Scrapy 抓取 Amazon。
但我有这个错误
DEBUG: Retrying <GET http://www.amazon.fr/Amuses-bouche-Peuvent-b%C3%A9n%C3%A9ficier-dAmazon-Premium-Epicerie/s?ie=UTF8&page=1&rh=n%3A6356734031%2Cp_76%3A437878031>
(failed 1 times): 503 Service Unavailable
time.sleep(6)
在每个请求之前。
最佳答案
您必须对亚马逊非常小心,并遵守亚马逊使用条款和与网络抓取相关的政策。
亚马逊非常擅长禁止机器人的 IP。您必须调整 DOWNLOAD_DELAY
和 CONCURRENT_REQUESTS
减少访问网站的频率并成为一个良好的网络抓取公民。而且,您需要轮换 IP 地址(例如,您可以查看 crawlera )和 user agents .
关于web-scraping - 如何防止在抓取亚马逊时被列入黑名单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37077489/
我正在尝试从另一个网站远程连接到 SQL。我进行了 whois 查找以获取尝试连接的域的 IP 地址并将其列入 cPanel 中的白名单。我还执行了 echo $_SERVER['SERVER_ADD
Microsoft SmartScreen,以其消息而闻名: Windows Defender SmartScreen prevented an unrecognized app from start
我有一个由多个 .aspx 页面组成的 ASP.NET 应用程序。我希望其中一个 .aspx 页面只能由一组特定的 IP 访问。这可能吗? 我知道您可以在网站级别将 IP 列入白名单,但是您可以将应用
我是一名优秀的程序员,十分优秀!