gpt4 book ai didi

scrapy - 为什么 Scrapy 很慢?

转载 作者:行者123 更新时间:2023-12-02 22:32:49 27 4
gpt4 key购买 nike

我正在抓取一个网站并解析一些内容和图像,但即使对于 100 页左右的简单网站,完成这项工作也需要数小时。我正在使用以下设置。任何帮助将不胜感激。我已经看过这个问题- Scrapy 's Scrapyd too slow with scheduling spiders但无法收集到太多见解。

EXTENSIONS = {'scrapy.contrib.logstats.LogStats': 1}
LOGSTATS_INTERVAL = 60.0
RETRY_TIMES = 4
CONCURRENT_REQUESTS = 32
CONCURRENT_REQUESTS_PER_DOMAIN = 12
CONCURRENT_ITEMS = 200
DOWNLOAD_DELAY = 0.75

最佳答案

您确定网站响应正常吗?

设置 DOWNLOAD_DELAY = 0.75 将强制请求顺序进行,并在它们之间添加 0.75 秒的延迟。如果你删除它,你的爬行肯定会更快,但是,每个域有 12 个并发请求,请注意你不要过于激进地访问网站。

即使有延迟,也不会花费数小时,所以我想知道网站是否速度慢或没有响应。有些网站会对机器人执行此操作。

关于scrapy - 为什么 Scrapy 很慢?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11945159/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com