gpt4 book ai didi

python - 如何获取Python Scrapy工具抓取的Item数量?

转载 作者:行者123 更新时间:2023-11-30 23:32:05 25 4
gpt4 key购买 nike

我正在使用 Python Scrapy 工具从网站提取数据。我能够抓取数据。现在我想要从特定网站抓取的项目数。如何获取已抓取的项目数量? Scrapy 中有一些内置的类吗?任何帮助将不胜感激。谢谢..

最佳答案

基于示例here ,我这样解决了同样的问题:

1.编写一个像这样的自定义网络服务来计算下载的项目:

from scrapy.webservice import JsonResource
from scrapy import signals
from scrapy.xlib.pydispatch import dispatcher


class ItemCountResource(JsonResource):

ws_name = 'item_count'

def __init__(self, crawler, spider_name=None):
JsonResource.__init__(self, crawler)
self.item_scraped_count = 0
dispatcher.connect(self.scraped, signals.item_scraped)
self._spider_name = spider_name
self.isLeaf = spider_name is not None

def scraped(self):
self.item_scraped_count += 1

def render_GET(self, txrequest):
return self.item_scraped_count

def getChild(self, name, txrequest):
return ItemCountResource(name, self.crawler)

2.在settings.py中注册服务,如下所示:

WEBSERVICE_RESOURCES = {
'path.to.ItemResource.ItemCountResource': 1,
}

3.visite http://localhost:6080/item_count 将抓取该项目。

关于python - 如何获取Python Scrapy工具抓取的Item数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19565809/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com