gpt4 book ai didi

python - scrapy 加速爬行

转载 作者:太空宇宙 更新时间:2023-11-04 05:54:46 25 4
gpt4 key购买 nike

我目前正在抓取网站以提取产品信息。该站点包含数百万 [大约 2000 万] 的产品信息,我需要提取其中的每一个。我需要加快抓取速度,因为我的爬虫目前每分钟只能抓取几百页。

这是我的爬虫示例代码。

class XYSspider(CrawlSpider):
name = "XYZ"

allowed_domains = ["www.xyz.info"]
start_urls = ['http://www.xyz.info/']

rules = [
Rule(LinkExtractor(allow=r'\.kat$'), follow=True),
Rule(LinkExtractor(allow=r'/id_\d+/'), callback='parse_product'),
]

def parse_product(self, response):
item = DmozItem()
item['title'] = response.xpath('//title/text()').extract()[0].encode('utf-8')
yield item

有什么方法可以加快抓取过程。以目前的速度,我需要几天时间才能抓取所有数据。任何见解都会非常有帮助。谢谢

最佳答案

确保在 settings.py 中将每个域的并发请求数设置为 32。

如果这没有帮助,很可能是网站限制了您。网站通常具有某种非/蜘蛛/抓取检测功能,如果它们检测到来自同一 IP 的大量请求,则往往会阻止或限制。

我使用 http://www.crawlera.com由 scrapy 团队管理。它通过他们的代理网络路由您的所有请求并处理禁令等。这是我能够高速抓取的唯一方式。

关于python - scrapy 加速爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28392616/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com