gpt4 book ai didi

python - Scrapy 下载错误和 remove_request 错误

转载 作者:太空狗 更新时间:2023-10-29 20:27:19 42 4
gpt4 key购买 nike

作者注:您可能认为这篇文章缺乏上下文或信息,那只是因为我不知道从哪里开始。我很乐意根据您的要求使用其他信息进行编辑。


运行 scrapy 我在我抓取的所有链接中看到以下错误:

ERROR: Error downloading <GET http://www.fifa.com/fifa-tournaments/players-coaches/people=44630/index.html>
Traceback (most recent call last):
File "/Library/Python/2.7/site-packages/twisted/internet/defer.py", line 588, in _runCallbacks
current.result = callback(current.result, *args, **kw)
File "/Library/Python/2.7/site-packages/scrapy/core/downloader/__init__.py", line 75, in _deactivate
self.active.remove(request)
KeyError: <GET http://www.fifa.com/fifa-tournaments/players-coaches/people=44630/index.html>
2016-01-19 15:57:20 [scrapy] INFO: Error while removing request from slot
Traceback (most recent call last):
File "/Library/Python/2.7/site-packages/twisted/internet/defer.py", line 588, in _runCallbacks
current.result = callback(current.result, *args, **kw)
File "/Library/Python/2.7/site-packages/scrapy/core/engine.py", line 140, in <lambda>
d.addBoth(lambda _: slot.remove_request(request))
File "/Library/Python/2.7/site-packages/scrapy/core/engine.py", line 38, in remove_request
self.inprogress.remove(request)
KeyError: <GET http://www.fifa.com/fifa-tournaments/players-coaches/people=44630/index.html>

当我使用以下方法简单地在单个 URL 上运行 scrappy 时:

scrappy shell http://www.fifa.com/fifa-tournaments/players-coaches/people=44630/index.html

没有错误发生。我正在毫无问题地删除数千个类似的链接,但我在大约 10 个链接上看到了这个问题。我使用的是 scrappy 默认的 180 秒下载超时。我在网络浏览器中也没有发现这些链接有任何问题。

解析由请求发起:

  request = Request(url_nrd,meta = {'item' : item},callback=self.parse_player,dont_filter=True)

在函数中处理:

  def parse_player(self, response):
if response.status == 404:
#doing stuff here
yield item
else:
#doing stuff there
request = Request(url_new,meta = {'item' : item},callback=self.parse_more,dont_filter=True)
yield request

def parse_more(self, response):
#parsing more stuff here
return item

此外:我没有更改 scrappy 中下载重试的默认设置(但我也没有在我的日志文件中看到任何重试)。

附加说明:在我的抓取完成后,由于 dont_filter=True,我可以看到在某些时候由于之前的错误而无法下载的链接,在之前和后续的请求中调用时并没有失败。

可能的答案:我看到我在其中一个蜘蛛上收到了 KeyError 并且该蜘蛛的取消分配失败(remove_request)。是否有可能是因为我正在设置 dont_filter=True 并在同一个 URL 上执行多个请求,而蜘蛛的关键似乎是那个 URL?蜘蛛程序被同一 URL 上的先前并发请求取消分配?

在那种情况下,如何为每个请求提供一个唯一的键而不在 URL 上建立索引?


编辑

我认为我在 parse_player 中的代码是问题所在,我不确定,因为从那以后我编辑了我的代码,但我记得在 yield request 上看到一个错误的缩进>。

  def parse_player(self, response):
if response.status == 404:
#doing stuff here
yield item
else:
paths = sel.xpath('some path extractor here')
for path in paths:
if (some_condition):
#doing stuff there
request = Request(url_new,meta = {'item' : item},callback=self.parse_more,dont_filter=True)
# Bad indent of yield request here!
yield request

如果您认为这可能导致了问题,请告诉我。

最佳答案

如果您只是简单地忽略错误 ??

 def parse_player(self, response):    if response.status == 200:      paths = sel.xpath('some path extractor here')      for path in paths:        if (some_condition):          #doing stuff there          request = Request(url_new,meta = {'item' : item},callback=self.parse_more,dont_filter=True)        # Bad indent of yield request here!        yield request

关于python - Scrapy 下载错误和 remove_request 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34889622/

42 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com