python - 如何停止 scrapy 爬虫-6ren

python - 如何停止 scrapy 爬虫

转载作者：太空宇宙更新时间：2023-11-04 08:56:22

25

4

如果满足某些条件，我想停止蜘蛛我试过这样做:raise CloseSpider('Some Text') 和

sys.exit("SHUT DOWN EVERYTHING!")

但它并没有停止。这是代码编写 raise exception 而不是 return 也不会随着蜘蛛继续爬行而工作:

import scrapy
from scrapy.http import Request

from tutorial.items import DmozItem
from scrapy.exceptions import CloseSpider
import sys

class DmozSpider(scrapy.Spider):
    name = "tutorial"
    allowed_domain = ["jabong.com"]
    start_urls = [
            "http://www.jabong.com/women/shoes/sandals/?page=1"
        ]

    page_index = 1

    def parse(self,response):
        products = response.xpath('//li')

        if products:
            for product in products:
                item = DmozItem()
                item_url = product.xpath('@data-url').extract()
                item_url = "http://www.jabong.com/" + item_url[0] if item_url else ''   
                if item_url:
                        request=Request(url=item_url,callback=self.parse_page2,meta={"item":item},
                                headers={"Accept":
                        "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"})
                    request.meta['item'] = item
                    yield request
        else:
            return

        self.page_index += 1
            if self.page_index:
                    yield Request(url="http://www.jabong.com/women/shoes/sandals/?page=%s" %                        (self.page_index),
            headers={"Referer": "http://www.jabong.com/women/shoes/sandals/",
                 "X-Requested-With": "XMLHttpRequest"},
                        callback=self.parse)

    def parse_page2(self, response):
        sizes=[]
        item = response.meta['item']
        item['site_name'] = 'jabong'
        item['tags'] = ''
        yield item

更新:而不是返回，即使我养了 closspider 我的蜘蛛也没有停止

最佳答案

return 也可以在这里工作，不是强制的，而是由于爬行逻辑 - 因为您不再产生任何请求。
但是请记住，您可能解释为“蜘蛛未关闭”的实际上是管道中已开始处理的剩余请求，并且需要更多时间才能完成处理。因此，蜘蛛不会在执行 return 的同一瞬间停止，因为管道中仍有请求。当它们都被处理后，如果没有新的创建，蜘蛛最终会停止。

关于python - 如何停止 scrapy 爬虫，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/29844131/

25

4

0

文章推荐： python - Firebase .validate 无法按预期使用 $location

文章推荐： Java Win WX 和 Win Vista

python - 停止 Winsound/停止 Python 上的线程
我正在使用 Tkinter 在 python 上写一个小游戏(顺便说一下，我不允许使用任何其他非内置模块)并且我想在主窗口上播放背景歌曲，这是那个包含标题，以及转到其他窗口和内容的按钮... 所以问题
azure - 停止 Azure 服务*不会*停止 WebJob 在其后面持续运行
我有一个 Azure WebJob，它在一个非常简单的应用服务标准:1 Small(计划)上运行。现在，我的 WebJob(有 5 个函数正在运行)出现问题 - 我想停止 5 个正在运行的函数中的
objective-c - XCode 调试器在“停止”按钮上使用 SIGKILL 停止
我在 MacOS Lion 上使用 XCode 4.2。在模拟器中调试 iPhone/iPad 应用程序时，我使用 XCode 工具栏上的“停止”按钮(产品 | 停止)退出应用程序。在此之后，XCod
makefile - ***配方在第一个目标之前开始。停止
我刚刚下载了android开放源代码项目，并尝试使用make来构建它，我收到了以下消息: build/core/prebuilt.mk:91: *** recipe commences before
Makefile 缺少分隔符。停止
我以前从未制作过 makefile，但我们已经收到了这个，但是，如果我尝试运行它，它只会说， missing separator. stop. 我不知道可能出了什么问题 - 我已经确保空格只按制表符。
iphone - 停止 NSTimer
好吧，这段代码非常基本。用户将答案输入文本框，如果等于“第一+第二”，他们就得到一分。然后，他们有 5 秒钟的时间回答下一个数学问题。如果他们这样做了，函数“doCalculation”将再次运行，他
ios - 停止 animateWithDuration
我在 viewController 中有一个循环动画 - (void)moveAnimating { [UIView animateWithDuration:2.0f animations:^
Iphone 停止 ASIFormDataRequest
当我有一个待处理的 ASIFormDataRequest(作为异步任务启动)仍在执行并且用户按下后退按钮(为了弹出 View )时，我的 viewController 出现问题。有什么方法可以停止该
flashdevelop 停止，没有明确的编译错误
我们正在使用 flashdevelop 和 flash CS 3 开发基于 flash 的游戏。我们正在使用 flash CS3 发布 swc，swc 将作为库在 flashdevlop 中使用。一
cocoa - 停止 NSRunLoop
我在线程中有一个连接，因此我将其添加到运行循环中以获取所有数据: [[NSRunLoop currentRunLoop] run]; [connection scheduleInRunLoop
php socket_accept 停止
你好，我做了一个 php 套接字服务器来从 plc 获取数据，plc 被配置为 tcp 套接字客户端。我有一个严重的问题，如果本地网络出现故障，似乎功能 socket_accept 停止，plc 无
javascript - 停止 setTimeOut();
这个问题已经有答案了: How to stop a setTimeout loop? (10 个回答) 已关闭 8 年前。请帮助获得正确的函数或方法来停止 setTimeout 函数。我一直在尝试
scala - 设置使SBT在错误时快速失败(停止)
我正在运行一个多项目SBT(v0.13)构建，并且希望它在子项目中遇到的第一个错误(编译)时快速失败(停止)。当前的行为是，当某项无法在子项目中进行编译时，构建将继续(以编译所有其他子项目)。一旦
java - 停止.wav
我有播放.wav文件中声音的代码，但是我无法停止播放歌曲，甚至无法退出程序直到播放结束。因为这是一首5分钟的歌曲，所以这是一个问题。这是我如何播放wav的代码: public class EasySo
jsf - 通过JSF应用播放音频并控制开始/停止
我正在寻找一种解决方案，该如何控制从JSF应用程序播放音频文件。我不需要完整的解决方案，只需引用我可以用来控制播放音频文件(开始/停止/更改声音)的组件即可。我尝试搜索过去的问题，但没有成功。我
powershell - Powershell用arg启动/停止
我已经在test.ps1中编写了以下函数，在运行该脚本以启动/停止/ ..时我想做一个选择: function getState($SeviceName) { $server = @('hos
javascript - vuejs定时器组件重启/停止
我必须设置一个 10 分钟的计时器，它会重定向到主屏幕。此外，它必须在每个操作(例如按下按钮)时重置。我找到了这个计时器:https://github.com/fengyuanchen/vue-cou
audio - HTML音频播放/停止
我正在制作一个聊天应用程序，功能之一就是发送声音。发送的HTML如下: LOL Stop Play 第一次发送时，“自动播放”效果很好。因此，现在我
带有开始/停止/重置和用户输入时间的javascript倒计时
我基本上希望页面能够接受用户输入的时间(以秒为单位)。之后我希望当用户按下“开始”按钮时开始倒计时按下暂停按钮时“暂停”。还有一个重置按钮，以便用户可以从头开始倒计时。这是我到目前为止得到的:
javascript - 停止$.each，加载图像然后继续循环
我需要停止 $.each 循环，加载图像，然后继续循环。我有 Canvas ，可以在其中加载对象图像。对象以正确的顺序排列在数组中。现在，当我尝试从数组加载对象时，存在一个问题:由于尺寸不同，并且它们

首页

博学

6Ren·AI

商城

python - 如何停止 scrapy 爬虫