python - Scrapy:非阻塞暂停-6ren

python - Scrapy:非阻塞暂停

转载作者：IT老高更新时间：2023-10-28 21:04:25

25

4

我有问题。我需要停止执行一个函数一段时间，但不要停止整个解析的执行。也就是说，我需要一个非阻塞的暂停。

看起来像:

class ScrapySpider(Spider):
    name = 'live_function'

    def start_requests(self):
        yield Request('some url', callback=self.non_stop_function)

    def non_stop_function(self, response):
        for url in ['url1', 'url2', 'url3', 'more urls']:
            yield Request(url, callback=self.second_parse_function)

        # Here I need some function for sleep only this function like time.sleep(10)

        yield Request('some url', callback=self.non_stop_function)  # Call itself

    def second_parse_function(self, response):
        pass

函数 non_stop_function 需要停止一段时间，但它不应该阻塞其余的输出。

如果我插入 time.sleep() - 它会停止整个解析器，但我不需要它。是否可以使用 twisted 或其他方式停止一个功能？

原因:我需要创建一个非阻塞函数，每隔 n 秒解析一次网站的页面。在那里，她将获得网址并填写 10 秒。已经获取到的网址会继续工作，但主要功能需要休眠。

更新:

感谢 TkTech 和 viach。一个答案帮助我了解了如何制作待处理的Request，第二个是如何激活它。两个答案相得益彰，我为 Scrapy 做了一个很好的非阻塞暂停:

def call_after_pause(self, response):
    d = Deferred()
    reactor.callLater(10.0, d.callback, Request(
        'https://example.com/',
        callback=self.non_stop_function,
        dont_filter=True))
    return d

并为我的请求使用此功能:

yield Request('https://example.com/', callback=self.call_after_pause, dont_filter=True)

最佳答案

Request 对象有 callback 参数，尝试使用该参数。我的意思是，创建一个包装 self.second_parse_function 和 pause 的 Deferred。

这是我的脏且未经测试的示例，已标记更改的行。

class ScrapySpider(Spider):
    name = 'live_function'

    def start_requests(self):
        yield Request('some url', callback=self.non_stop_function)

    def non_stop_function(self, response):

        parse_and_pause = Deferred()  # changed
        parse_and_pause.addCallback(self.second_parse_function) # changed
        parse_and_pause.addCallback(pause, seconds=10)  # changed

        for url in ['url1', 'url2', 'url3', 'more urls']:
            yield Request(url, callback=parse_and_pause)  # changed

        yield Request('some url', callback=self.non_stop_function)  # Call itself

    def second_parse_function(self, response):
        pass

如果该方法适合您，那么您可以创建一个函数，该函数根据规则构造一个 Deferred 对象。它可以通过如下方式实现:

def get_perform_and_pause_deferred(seconds, fn, *args, **kwargs):
    d = Deferred()
    d.addCallback(fn, *args, **kwargs)
    d.addCallback(pause, seconds=seconds)
    return d

这是可能的用法:

class ScrapySpider(Spider):
    name = 'live_function'

    def start_requests(self):
        yield Request('some url', callback=self.non_stop_function)

    def non_stop_function(self, response):
        for url in ['url1', 'url2', 'url3', 'more urls']:
            # changed
            yield Request(url, callback=get_perform_and_pause_deferred(10, self.second_parse_function))

        yield Request('some url', callback=self.non_stop_function)  # Call itself

    def second_parse_function(self, response):
        pass

关于python - Scrapy:非阻塞暂停，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36984696/

25

4

0

文章推荐： java - 为什么 LinkedList 在 java 中没有 initialCapacity？

文章推荐： python - 将请求的响应保存到文件

文章推荐： java - 给定一个字符串，找到第一个嵌入的整数

文章推荐： python - 将数千张图像读入一个大 numpy 数组的最快方法

c# - ASP.NET 网站似乎定期(每小时)卡住/暂停/暂停/挂起
我在 Window 2008 x64 上的 IIS 7 下托管了一个网站。 IIS 以 64 位模式运行，该站点有自己的 64 位应用程序池等。该网站大部分时间似乎运行良好，然后每小时突然卡住用户请求
android - 如何使 ImageView 可见、暂停 5 秒、不可见、暂停 5 秒等等
我有一个 imageView 并希望它像这样工作: ImageViewer可见 5秒暂停 ImageView 不可见 5秒暂停 ImageViewer可见等等... 我该怎么做？我试过 sleep
JavaScript 暂停
我在我的 JavaScript 函数中使用了下面的代码。我想在 10 秒后调用这个函数。然而该函数立即被触发!？!不确定发生了什么。 function testing() { //oth
Android_Chronometer 暂停
我想暂停计时器，点击按钮后我想继续计时器计数...我搜索但找不到与此相关的功能.. 怎么办？最佳答案您将需要一个变量来跟踪自 Chronometer 启动以来耗时: long timeWhenSt
python - 暂停/重启使用python控制录音
我目前有一个程序可以从麦克风收集声音信号并在 python 上实时显示波形。对于 matplotlib funcanimation，我正在尝试通过这种方式向我的程序添加一些暂停和启动按钮或功能。但它没
rxjs - 暂停，恢复后给出最后的暂停值
我有一个由套接字提供的热Observable。我可以使用pausable暂停套接字供稿。但是一旦“取消暂停”可观察对象，就需要显示套接字在暂停订阅时可能发送的最后一个值。我不想跟踪套接字手动发送的最后
当音频播放器在我的应用程序中启动时 Spotify 暂停
我知道这是可能的，但我还没有找到方法，所以我在问。在播放 3rd 方音乐(例如 Spotify)时开始在我的应用程序中播放 mp3 声音时。 Spotify 暂停，您必须恢复 Spotify，让它再
ios - 暂停/恢复时实时AVAssetWriter同步音频和视频
我正在尝试使用 iPhone 的前置摄像头录制有声视频。因为我还需要支持暂停/恢复功能，所以我需要使用 AVAssetWriter .我在网上找到了一个用 Objective-C 编写的示例，它几乎实
c - 暂停/恢复另一个线程
我知道互斥锁可以作为一种实现，但是我想知道是否有一种方法可以像视频播放一样暂停/恢复另一个线程。当其他正在运行的线程很复杂时，此方法更易于编程。最佳答案 SIGTSTP是用于暂停进程的信号，如果您有
SwiftUI 暂停/恢复旋转动画
到目前为止，我已经看到了以下停止动画的技术，但我在这里寻找的是旋转 View 停止在当前的角度，而不是返回到 0。 struct DemoView: View { @State private
multithreading - 暂停/恢复任务
我一般在问有关多线程的问题。例如我锁定了一个互斥锁并恢复任务，然后我想挂起它，我的问题是，我应该在挂起之前解锁互斥锁吗？这样当我再次使用互斥锁恢复它时，它会成功恢复吗？我刚刚开始使用多线程的东西，我
javascript - 暂停/播放多个嵌入式YouTube播放器
我有2个缩略图链接，单击它们时，它们会以灯箱样式打开视频。我的目标是让它们在打开时播放，在关闭时暂停(单击背景区域时关闭)。我的HTML代码在这里: M
javascript - 文本链接上的内嵌音频播放/暂停
到目前为止，我没有将我发现的几种不同方法拼凑在一起: http://192.185.121.49/~steveobr/ 我需要所有的语音演示像第一个“商业”一样工作正如您在实时示例中看到的那样，每个
javascript - 暂停/恢复在nodejs中执行的代码
所以我正在制作某种游戏，玩家可以在其中获得一些能力。玩家回合结束后，服务器应有 5 秒的超时时间，其中不执行任何代码，然后在该时间后结束回合。但是，如果客户端单击其中一项电源，服务器应停止 5 秒超时
createjs 暂停/恢复所有补间
我尝试将自己的方法添加到 Tween 类中以暂停/恢复所有补间。这就是我所拥有的: createjs.Tween.pauseAllTweens = function() { for ( var
Azure 搜索规模缩小/暂停
我对 Azure 搜索标准级别的成本有疑问。是否可以将 Azure 搜索级别从标准更改为基本？是否可以暂时暂停 Azure 搜索标准？我在门户中没有看到此控件。我是否需要将 Azure 搜索实现重新创
ios - 使用同一按钮播放/暂停
如何用相同的代码制作play/Pause按钮。 - (IBAction)min:(id)sender { NSString *path = [[NSBundle mainBundle] pathF
ios - 暂停/播放其他应用程序的背景音频
我知道这很可能超出了沙箱范围，但我还是想问一下: 我想在我的应用程序中放置一个“暂停/播放”按钮，以暂停或播放任何背景音频。基本上，我希望实现在多任务栏中找到的播放/暂停按钮。一个简单的例子是有人用
java - 暂停/恢复线程中的任意计算
我正在制作一款编程游戏，玩家可以在其中对盟友的行为进行编程。玩家为给定的盟友编写decide()函数的主体，可以用任何java代码填写，但必须返回一个 Action 。我想为每个盟友提供一组有限的每个
Javascript 音频对象播放/暂停
我有功能 1 用于播放音乐，第二个用于设置实际音乐的暂停，我的暂停功能不起作用。我该如何设置暂停？ function play(id){ var audio = new Audio('

首页

博学

6Ren·AI

商城

python - Scrapy:非阻塞暂停