python - Scrapy:根据条件停止先前的解析功能-6ren

python - Scrapy:根据条件停止先前的解析功能

转载作者：太空宇宙更新时间：2023-11-04 05:37:07

25

4

我现在正在开发的一个爬虫有一个非常特殊的情况。第一个函数 parse_posts_pages 遍历特定论坛页面的所有页面，并为每个页面调用第二个函数 parse_posts。

def parse_posts_pages(self, response):
    thread_id = response.meta['thread_id']
    thread_link = response.meta['thread_link']
    thread_name = response.meta['thread_name']
    if len(response.xpath('//*[@id="postpagestats_above"]/text()').re(r'(\d+)')) == 3:
        posts_per_page = int(response.xpath('//*[@id="postpagestats_above"]/text()').re(r'(\d+)')[1])
        total_posts = int(response.xpath('//*[@id="postpagestats_above"]/text()').re(r'(\d+)')[2])
        if posts_per_page > 0:
            post_mod = total_posts % posts_per_page
            pages = total_posts / posts_per_page
            if post_mod > 0: pages += 1
        else: pages = 1

    for page in range(pages, 0, -1):
        cur_page = '' if page == 1 else '/page' + str(page)
        post_page_link = thread_link + cur_page
        return scrapy.Request(post_page_link, self.parse_posts, meta={'thread_id': thread_id, 'thread_name': thread_name})


def parse_posts(self, response):
    global maxPostIDByThread, executeFullSpider
    thread_id = response.meta['thread_id']
    thread_name = response.meta['thread_name']
    for post in response.xpath('//*[@id="posts"]/li'):
        post_id = post.xpath('@id').re(r'(\d.*)')[0]
        if not executeFullSpider and post_id in maxPostIDByThread:
            break #<- I need this break to also cancel the for from parse_posts_pages function
        ...

在第二个函数中有一个 if 条件。当此条件为真时，我需要中断当前的 for 循环以及来自 parse_posts_pages 的 for 循环，因为不需要继续分页。

有没有办法从第二个函数停止第一个函数中的for循环？

最佳答案

按照手册中的描述，只需引发 CloseSpider

How can I instruct a spider to stop itself?

Raise the CloseSpider from a callback.

from scrapy.exceptions import CloseSpider

def parse_page(self, response):
    if 'Bandwidth exceeded' in response.body:
        raise CloseSpider('bandwidth_exceeded')

http://doc.scrapy.org/en/latest/faq.html#how-can-i-instruct-a-spider-to-stop-itself http://doc.scrapy.org/en/latest/topics/exceptions.html#scrapy.exceptions.CloseSpider

Note that requests that are still in progress (HTTP request sent,response not yet received) will still be parsed. No new request willbe processed though.

https://stackoverflow.com/a/23895143/5041915

更新:实际上我发现了一些有趣的东西 If stop spider in main function.

可能会出现新的有效 worker 没有时间启动的情况，因为引发异常的速度更快。

我建议在回调函数中检查条件并尽早引发异常。

关于python - Scrapy:根据条件停止先前的解析功能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35244392/

25

4

0

文章推荐：完成循环的 c int 比较

文章推荐： c - 使用 -O3 选项优化结构指针

文章推荐： linux - setuid 处的不安全 ENV 变量

文章推荐： python - Pandas DataFrame 未按预期工作

python - 停止 Winsound/停止 Python 上的线程
我正在使用 Tkinter 在 python 上写一个小游戏(顺便说一下，我不允许使用任何其他非内置模块)并且我想在主窗口上播放背景歌曲，这是那个包含标题，以及转到其他窗口和内容的按钮... 所以问题
azure - 停止 Azure 服务*不会*停止 WebJob 在其后面持续运行
我有一个 Azure WebJob，它在一个非常简单的应用服务标准:1 Small(计划)上运行。现在，我的 WebJob(有 5 个函数正在运行)出现问题 - 我想停止 5 个正在运行的函数中的
objective-c - XCode 调试器在“停止”按钮上使用 SIGKILL 停止
我在 MacOS Lion 上使用 XCode 4.2。在模拟器中调试 iPhone/iPad 应用程序时，我使用 XCode 工具栏上的“停止”按钮(产品 | 停止)退出应用程序。在此之后，XCod
makefile - ***配方在第一个目标之前开始。停止
我刚刚下载了android开放源代码项目，并尝试使用make来构建它，我收到了以下消息: build/core/prebuilt.mk:91: *** recipe commences before
Makefile 缺少分隔符。停止
我以前从未制作过 makefile，但我们已经收到了这个，但是，如果我尝试运行它，它只会说， missing separator. stop. 我不知道可能出了什么问题 - 我已经确保空格只按制表符。
iphone - 停止 NSTimer
好吧，这段代码非常基本。用户将答案输入文本框，如果等于“第一+第二”，他们就得到一分。然后，他们有 5 秒钟的时间回答下一个数学问题。如果他们这样做了，函数“doCalculation”将再次运行，他
ios - 停止 animateWithDuration
我在 viewController 中有一个循环动画 - (void)moveAnimating { [UIView animateWithDuration:2.0f animations:^
Iphone 停止 ASIFormDataRequest
当我有一个待处理的 ASIFormDataRequest(作为异步任务启动)仍在执行并且用户按下后退按钮(为了弹出 View )时，我的 viewController 出现问题。有什么方法可以停止该
flashdevelop 停止，没有明确的编译错误
我们正在使用 flashdevelop 和 flash CS 3 开发基于 flash 的游戏。我们正在使用 flash CS3 发布 swc，swc 将作为库在 flashdevlop 中使用。一
cocoa - 停止 NSRunLoop
我在线程中有一个连接，因此我将其添加到运行循环中以获取所有数据: [[NSRunLoop currentRunLoop] run]; [connection scheduleInRunLoop
php socket_accept 停止
你好，我做了一个 php 套接字服务器来从 plc 获取数据，plc 被配置为 tcp 套接字客户端。我有一个严重的问题，如果本地网络出现故障，似乎功能 socket_accept 停止，plc 无
javascript - 停止 setTimeOut();
这个问题已经有答案了: How to stop a setTimeout loop? (10 个回答) 已关闭 8 年前。请帮助获得正确的函数或方法来停止 setTimeout 函数。我一直在尝试
scala - 设置使SBT在错误时快速失败(停止)
我正在运行一个多项目SBT(v0.13)构建，并且希望它在子项目中遇到的第一个错误(编译)时快速失败(停止)。当前的行为是，当某项无法在子项目中进行编译时，构建将继续(以编译所有其他子项目)。一旦
java - 停止.wav
我有播放.wav文件中声音的代码，但是我无法停止播放歌曲，甚至无法退出程序直到播放结束。因为这是一首5分钟的歌曲，所以这是一个问题。这是我如何播放wav的代码: public class EasySo
jsf - 通过JSF应用播放音频并控制开始/停止
我正在寻找一种解决方案，该如何控制从JSF应用程序播放音频文件。我不需要完整的解决方案，只需引用我可以用来控制播放音频文件(开始/停止/更改声音)的组件即可。我尝试搜索过去的问题，但没有成功。我
powershell - Powershell用arg启动/停止
我已经在test.ps1中编写了以下函数，在运行该脚本以启动/停止/ ..时我想做一个选择: function getState($SeviceName) { $server = @('hos
javascript - vuejs定时器组件重启/停止
我必须设置一个 10 分钟的计时器，它会重定向到主屏幕。此外，它必须在每个操作(例如按下按钮)时重置。我找到了这个计时器:https://github.com/fengyuanchen/vue-cou
audio - HTML音频播放/停止
我正在制作一个聊天应用程序，功能之一就是发送声音。发送的HTML如下: LOL Stop Play 第一次发送时，“自动播放”效果很好。因此，现在我
带有开始/停止/重置和用户输入时间的javascript倒计时
我基本上希望页面能够接受用户输入的时间(以秒为单位)。之后我希望当用户按下“开始”按钮时开始倒计时按下暂停按钮时“暂停”。还有一个重置按钮，以便用户可以从头开始倒计时。这是我到目前为止得到的:
javascript - 停止$.each，加载图像然后继续循环
我需要停止 $.each 循环，加载图像，然后继续循环。我有 Canvas ，可以在其中加载对象图像。对象以正确的顺序排列在数组中。现在，当我尝试从数组加载对象时，存在一个问题:由于尺寸不同，并且它们

首页

博学

6Ren·AI

商城

python - Scrapy:根据条件停止先前的解析功能