作者热门文章
- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我的 scrapy 爬行速度很慢(大约 1 页/秒)。我正在从 aws 服务器抓取一个主要网站,所以我认为这不是网络问题。 CPU 利用率远未接近 100,如果我启动多个 scrapy 进程,爬网速度会快得多。
Scrapy 好像爬了一堆页面,然后挂了几秒,然后重复。
我试过玩:CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500
但这似乎并没有真正让指针超过 20。
最佳答案
您确定允许高速抓取目标站点吗?许多网站实现下载阈值,“一段时间后”开始响应缓慢。
关于python - Scrapy 爬取速度慢(60 页/分钟),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13505194/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
我是一名优秀的程序员,十分优秀!