- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
为了理解http://oliverguenther.de/2014/08/almost-asynchronous-requests-for-single-item-processing-in-scrapy/中的“朴素方法”示例
我正在尝试复制该代码。这个想法是填充一个项目,其中每个字段都来自不同的网站。
我试图理解为什么在运行下面的代码时会出现以下行为,并使用 scrapy crawl compSpider -o prices.csv
将结果导出到 csv 文件中.
该代码实际上用相关价格填充 nic_price,但对 tester_price 的操作却不同。
我相信它应该这样做,因为项目加载器对象从创建项目加载器对象的第一个回调 [firstRequest] 传递到请求元字段中,传递到创建项目加载器对象的第二个回调 [parseDescription1]对象最终被加载到项目中。
我已经测试过 css 选择器是否有效。有人可以帮助我理解为什么我会出现这种行为吗?
import scrapy
class ProductItem(scrapy.Item):
nic_price = scrapy.Field()
tester_price = scrapy.Field()
import scrapy
from scrapy.http import Request
from scrapy.loader import ItemLoader
from comparator.items import ProductItem
class Compspider(scrapy.Spider):
name = "compSpider"
#start_urls = ( 'https://www.shop.niceic.com/', )
def start_requests(self):
yield Request(
'https://www.shop.niceic.com/6559-megger-mft1711-multifunction-tester-1008-121', callback=self.firstRequest)
def firstRequest(self, response):
l = ItemLoader(item=ProductItem(), response=response)
l.add_css('nic_price', 'div.product-info p.product-price span[itemprop="price"]::text')
yield Request('https://www.tester.co.uk/test-safe-pen-co-meter', meta={'loader' : l}, callback= self.parseDescription1)
def parseDescription1(self, response):
# Recover item(loader)
l = response.meta['loader']
# Use just as before
l.add_css('tester_price', 'div.price-breakdown div.price-excluding-tax span.price::text')
yield l.load_item()
最佳答案
最近我也遇到了同样的问题。尝试使用这两种方法,但每种方法都有很大的缺点:
传递项目加载器并使用add_value()
引入了双重处理值的问题(通过输入和输出处理器),这使得设计这些处理器变得更加困难,从而使代码更难以编写阅读并维护。
传递项目而不是项目加载器只会破坏 ItemLoaders 的整个想法,并且还会在整个代码中引入不一致的情况。
我在浏览 scrapy 的 scrapy.loader.ItemLoader
源代码(非常小且简单的代码,顺便说一句)时发现它的 parent
关键字参数允许您传递父 ItemLoader 并将其所有值复制到新的 ItemLoader。
这是修改后的parseDescription1
:
def parseDescription1(self, response):
# Recover item(loader)
loader = response.meta['loader']
if response.body:
loader = ItemLoader(item=ProductItem(), response=response, parent=loader)
# Use just as before
tester_loader.add_css('tester_price', 'div.price-breakdown div.price-excluding-tax span.price::text')
yield loader.load_item()
scrapy 抓取
结果:
2016-11-01 10:48:50 [scrapy] DEBUG: Crawled (200) <GET https://www.shop.niceic.com/robots.txt> (referer: None)
2016-11-01 10:48:50 [scrapy] DEBUG: Crawled (200) <GET https://www.shop.niceic.com/6559-megger-mft1711-multifunction-tester-1008-121> (referer: None)
2016-11-01 10:48:50 [scrapy] DEBUG: Crawled (200) <GET https://www.tester.co.uk/robots.txt> (referer: None)
2016-11-01 10:48:51 [scrapy] DEBUG: Crawled (200) <GET https://www.tester.co.uk/test-safe-pen-co-meter> (referer: https://www.shop.niceic.com/6559-megger-mft1711-multifunction-tester-1008-121)
2016-11-01 10:48:51 [scrapy] DEBUG: Scraped from <200 https://www.tester.co.uk/test-safe-pen-co-meter>
{'nic_price': [u'\xa3509.00'],
'tester_price': [u'\n\t\t \xa349.00 \n\t\t ']}
关于python - 对回调之间的项目加载器进行故障排除,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40091228/
有人可以解释一下为什么这个脚本不起作用吗? function destroy(ID) { if (confirm("Deleting is a very bad thing! Sure?")
我正在尝试使 WCF Silverlight 故障按此方式工作: MSDN aricle 将 SL 故障添加到我的 Web.config 文件后,我收到以下警告: The element 'behav
这是我要删除的 Haskell 函数 2::Int和 5::Int从列表中: remPrimesFactors25 :: [Int] -> [Int] remPrimesFactors25 [] =
当我想用 ffmpeg 连接和录制两个 mp4 视频时,我遇到了这个问题。我得到的输出是: [concat @ 0x2566e80] DTS 4079 #0:0 (h264 (native) ->
我想在delphi中编写一个程序来模拟以特定速度移动的鼠标指针(类似于AutoIT MouseMove函数)。要么是我的代码错误,要么是 SetCursorPos 在被调用太多次后出现故障。这是我的功
我将“wa、or 和 id”(来自这些州的访问者)设置为重定向到 website1.com - 当我访问该网站时,它会将我重定向到 website1.com(因此它知道我在 WA) 。但如果我将 wa
我们目前正在争论通过 WCF channel 抛出错误与传递指示状态或服务响应的消息是否更好。 故障带有 WCF 的内置支持,您可以使用内置的错误处理程序并做出相应的 react 。然而,这会带来开销
不确定我在这里做错了什么,如果有任何帮助,我们将不胜感激。 尝试创建一个名为“control”的新变量,并在行变量等于这些数字时将其编码为 1,否则编码为 0。 data$control= ifels
我想在应用洞察中记录成功调用的百分比。我看到这篇文章https://learn.microsoft.com/en-us/azure/azure-monitor/app/sampling我认为固定速率采
我正在尝试使用 SVD 和特征分解来使用动态模式分解进行一些数据分析。我遇到了一个简单的问题,即从 Matlab 和 Python 获得不同的结果。我很困惑,不知道为什么 Python 给我错误的结果
This question already has an answer here: mysqli_fetch_assoc() expects parameter / Call to a member
我刚刚开始我的一个实验室,在那里我计算类(class)的 GPA,其信息存储在结构的链接列表中。截至目前,我正在尝试打印所有类(class)信息,以确保它们已正确初始化并添加到链接列表中。 我遇到了一
我正在尝试学习如何使用 visual studio 为 C++ 制作 GUI。但是我在使用 GetWindowText() 函数时遇到了一些问题。它不会将 LPTSTR 标题更改为文本框中的文本,并且
我有一个奇怪的问题。它似乎只出现在测试者的 iPhone 5s 上。它可以在运行最新 iOS (8.3) 的 iPhone 5、6 和 6 plus 上正常运行。 这是代码 -(NSString *)
我正在尝试更新 Core Data 中的一些记录。我正在采取以下步骤来完成它 带谓词的获取函数从核心数据中检索记录 将结果集存储在对象数组中 遍历数组并更新每条记录 调用保存上下文 我遇到了两个问题
我通过 Storyboard设计了 tableView,在一个单元格中我有一个按钮和一个标签。按钮在 Storyboard上有标签 1 和标签在 Storyboard上有标签 2。在 cellForR
我实现了这个方法,当在文本字段中输入了未经授权的字符或已使用的用户名时,向用户发送多个警报 View : func textFieldShouldEndEditing(textField: UITex
伙计们,我在运行程序时遇到了这个非常奇怪的错误。这是重要的代码: 变量(编辑): const short int maxX = 100; const short int maxZ = 100; con
我有这个修改过的 Matrix Javascript 代码,我想摆脱第一次运行的所有与自身重叠的字符串。有人知道我该如何管理吗?另外,我想在我的网页上多次使用此代码,我需要声明新变量,不是吗?但是当我
有谁知道是否有网站(甚至非 Microsoft)有关于 COMExceptions/HRESULTS 的详细信息。 当我尝试在使用 Copy() 函数后保存我的 Excel 工作簿时,我收到此错误:
我是一名优秀的程序员,十分优秀!