gpt4 book ai didi

Scrapy CPU 使用率高

转载 作者:行者123 更新时间:2023-12-02 06:39:01 25 4
gpt4 key购买 nike

我有一个非常简单的测试蜘蛛,它不进行解析。但是,我在 start_requests 方法中将大量 url (500k) 传递给蜘蛛,并看到 CPU 使用率非常高 (99/100%)。这是预期的行为吗?如果是这样,我该如何优化它(也许批处理和使用spider_idle?)

class TestSpider(Spider):

name = 'test_spider'
allowed_domains = 'mydomain.com'

def __init__(self, **kw):
super(Spider, self).__init__(**kw)
urls_list = kw.get('urls')
if urls_list:
self.urls_list = urls_list

def parse(self, response):
pass

def start_requests(self):
with open(self.urls_list, 'rb') as urls:
for url in urls:
yield Request(url, self.parse)

最佳答案

我认为这里的主要问题是您抓取了太多链接,请尝试添加规则以避免抓取不包含您想要的内容的链接。

Scrapy 提供了非常有用的文档,请查看它们!: http://doc.scrapy.org/en/latest/topics/spiders.html

关于Scrapy CPU 使用率高,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28459821/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com