gpt4 book ai didi

python - 对回调之间的项目加载器进行故障排除

转载 作者:行者123 更新时间:2023-12-01 03:38:05 25 4
gpt4 key购买 nike

为了理解http://oliverguenther.de/2014/08/almost-asynchronous-requests-for-single-item-processing-in-scrapy/中的“朴素方法”示例

我正在尝试复制该代码。这个想法是填充一个项目,其中每个字段都来自不同的网站。

我试图理解为什么在运行下面的代码时会出现以下行为,并使用 scrapy crawl compSpider -o prices.csv 将结果导出到 csv 文件中.

该代码实际上用相关价格填充 nic_price,但对 tester_price 的操作却不同。

我相信它应该这样做,因为项目加载器对象从创建项目加载器对象的第一个回调 [firstRequest] 传递到请求元字段中,传递到创建项目加载器对象的第二个回调 [parseDescription1]对象最终被加载到项目中。

我已经测试过 css 选择器是否有效。有人可以帮助我理解为什么我会出现这种行为吗?

元素声明

import scrapy
class ProductItem(scrapy.Item):
nic_price = scrapy.Field()
tester_price = scrapy.Field()

蜘蛛代码

import scrapy
from scrapy.http import Request
from scrapy.loader import ItemLoader
from comparator.items import ProductItem


class Compspider(scrapy.Spider):
name = "compSpider"


#start_urls = ( 'https://www.shop.niceic.com/', )

def start_requests(self):

yield Request(
'https://www.shop.niceic.com/6559-megger-mft1711-multifunction-tester-1008-121', callback=self.firstRequest)


def firstRequest(self, response):
l = ItemLoader(item=ProductItem(), response=response)
l.add_css('nic_price', 'div.product-info p.product-price span[itemprop="price"]::text')

yield Request('https://www.tester.co.uk/test-safe-pen-co-meter', meta={'loader' : l}, callback= self.parseDescription1)

def parseDescription1(self, response):

# Recover item(loader)
l = response.meta['loader']

# Use just as before
l.add_css('tester_price', 'div.price-breakdown div.price-excluding-tax span.price::text')

yield l.load_item()

最佳答案

最近我也遇到了同样的问题。尝试使用这两种方法,但每种方法都有很大的缺点:

  1. 传递项目加载器并使用add_value()引入了双重处理值的问题(通过输入和输出处理器),这使得设计这些处理器变得更加困难,从而使代码更难以编写阅读并维护。

  2. 传递项目而不是项目加载器只会破坏 ItemLoaders 的整个想法,并且还会在整个代码中引入不一致的情况。

我在浏览 scrapy 的 scrapy.loader.ItemLoader 源代码(非常小且简单的代码,顺便说一句)时发现它的 parent 关键字参数允许您传递父 ItemLoader 并将其所有值复制到新的 ItemLoader。

这是修改后的parseDescription1:

def parseDescription1(self, response):

# Recover item(loader)
loader = response.meta['loader']

if response.body:
loader = ItemLoader(item=ProductItem(), response=response, parent=loader)

# Use just as before
tester_loader.add_css('tester_price', 'div.price-breakdown div.price-excluding-tax span.price::text')

yield loader.load_item()

scrapy 抓取结果:

2016-11-01 10:48:50 [scrapy] DEBUG: Crawled (200) <GET https://www.shop.niceic.com/robots.txt> (referer: None)
2016-11-01 10:48:50 [scrapy] DEBUG: Crawled (200) <GET https://www.shop.niceic.com/6559-megger-mft1711-multifunction-tester-1008-121> (referer: None)
2016-11-01 10:48:50 [scrapy] DEBUG: Crawled (200) <GET https://www.tester.co.uk/robots.txt> (referer: None)
2016-11-01 10:48:51 [scrapy] DEBUG: Crawled (200) <GET https://www.tester.co.uk/test-safe-pen-co-meter> (referer: https://www.shop.niceic.com/6559-megger-mft1711-multifunction-tester-1008-121)
2016-11-01 10:48:51 [scrapy] DEBUG: Scraped from <200 https://www.tester.co.uk/test-safe-pen-co-meter>
{'nic_price': [u'\xa3509.00'],
'tester_price': [u'\n\t\t \xa349.00 \n\t\t ']}

关于python - 对回调之间的项目加载器进行故障排除,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40091228/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com