python - scrapy - 如果跟随无限网站则终止抓取-6ren

python - scrapy - 如果跟随无限网站则终止抓取

转载作者：行者123 更新时间：2023-12-05 08:07:49

26

4

假设我有一个类似 this 的网页.

计数器.php

if(isset($_GET['count'])){
    $count = intval($_GET['count']);
    $previous = $count - 1;
    $next = $count + 1;
    ?>
    <a href="?count=<?php echo $previous;?>">< Previous</a>

    Current: <?php echo $count;?>

    <a href="?count=<?php echo $next;?>">Next ></a>
    <?
}

?>

这是一个“无限”的网站，因为您只需点击下一步即可转到下一页(计数器只会增加)或上一页等。

但是，如果我想像这样使用 scrapy 抓取此页面并跟踪链接，scrapy 将永远不会停止抓取。

示例蜘蛛:

urls = []  
class TestSpider(CrawlSpider):
        name = 'test'
        allowed_domains = ['example.com']
        start_urls = ['http://example.com/counter?count=1']


        rules = (
            Rule(LinkExtractor(), callback='parse_item', follow=True),
            )

        def parse_item(self, response):
            urls.append(response.url)

我可以使用什么样的机制来确定我是否确实陷入了无限网站并需要摆脱它？

最佳答案

如果页面上没有 ITEMS，或者没有 NEXT PAGE 按钮，你总是可以分页，这意味着分页已经结束

class TestSpider(CrawlSpider):
        name = 'test'
        allowed_domains = ['example.com']

        def start_requests(self):
            page = 1
            yield Request("http://example.com/counter?page=%s" % (page), meta={"page": page}, callback=self.parse_item)

        def parse_item(self, response):

            #METHOD 1: check if items availble on this page         
            items = response.css("li.items")

            if items:
                #Now go to next page
                page = int(response.meta['page']) + 1
                yield Request("http://example.com/counter?page=%s" % (page), meta={"page": page}, callback=self.parse_item)
            else:
                logging.info("%s was last page" % response.url)

            #METHOD 2: check if this page has NEXT PAGE button, most websites has that          
            nextPage = response.css("a.nextpage")

            if nextPage:
                #Now go to next page
                page = int(response.meta['page']) + 1
                yield Request("http://example.com/counter?page=%s" % (page), meta={"page": page}, callback=self.parse_item)
            else:
                logging.info("%s was last page" % response.url)

关于python - scrapy - 如果跟随无限网站则终止抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53033631/

26

4

0

文章推荐： R gsub/str_replace 返回反斜杠

文章推荐： python - EMR DAG 在所有步骤完成之前终止

文章推荐： build - 使用 rollup 解析绝对路径

ios - 如何在应用程序未运行(终止/终止)时保持 Core Location 和 Core Bluetooth 运行？
如果我终止应用程序，我在尝试保持我的功能运行时卡住了。是否可以在应用程序未运行时保持核心位置(地理围栏/地理定位)和核心蓝牙运行？如果可能如何解决我的问题？我已经检查了背景模式，并实现了核心定位方法
java do while 终止
该程序要求用户输入一个数字，然后从列表中返回详细信息。我该怎么做？ do { Scanner in = new Scanner(System.in);
iOS后台执行和防止应用程序被挂起/终止
我正在开发一个内部分发的 iOS 应用程序(即，没有应用程序商店)，我希望能够以恒定的 10 分钟间隔报告设备的位置。无论如何，我在我的 plist 中包含了 location 作为字段 UIBac
Mongodb崩溃得到信号15(终止)
我的 mongodb 服务器突然收到信号 15(终止)。我不知道为什么 mongodb 崩溃了。以下是日志消息。 Mon Jun 27 07:33:31.701 [signalProcessingTh
C 清理错误/终止
我按顺序运行了一堆malloc，并且每次都检查以确保它是成功的。像这样: typedef struct { int *aray; char *string; } mystruct; m
c++ - 终止 pthreads
这个问题已经有答案了: How to stop a running pthread thread? (4 个回答) 已关闭 8 年前。可以使用 pthread_join() 停止线程。但让我们想象一
命令由信号 11 终止
#include #include #include struct node{ char data; int p; struct node *ptr; }; struct node *st
javascript - 函数何时以 }; 终止
这个问题已经有答案了: Why should I use a semicolon after every function in javascript? (9 个回答) 已关闭 8 年前。好吧，我问
c++ - 终止 worker
我有一个启动多个工作线程的函数。每个工作线程都由一个对象封装，该对象的析构函数将尝试加入线程，即调用if (thrd_.joinable()) thrd_.join();。但是，每个 worker 必
java - 后台服务被暂停/终止
我正在实现一个应用程序，当用户摇动手机时，该应用程序会监听并采取行动。所以我实现了以下服务: public class ShakeMonitorService extends Service {
ios - SourceKitService 终止
我在使用 Xcode 时遇到问题，其中弹出错误“Source Kit Service Terminated”，并且所有语法突出显示和代码完成在 Swift 中都消失了。我怎样才能解决这个问题？这是一
c# - 检测控制台应用程序何时关闭/终止？
我想为我的控制台应用程序安全退出，该应用程序将使用单声道在 linux 上运行，但我找不到解决方案来检测信号是否发送到它或用户是否按下了 ctrl+c。在 Windows 上有内核函数 SetCon
linux线程的取消(终止)方法
关键： pthread_cancel函数发送终止信号pthread_setcancelstate函数设置终止方式pthread_testcancel函数取消线程（另一功能是：设置取消点） 1 线程取消
c - 为什么这个程序永远不会以标志 `-O3` 终止？
下面的程序在不同的选项级别下有不同的行为。当我用 -O3 编译它时，它永远不会终止。当我用 -O0 编译它时，它总是很快就会终止。 #include #include void *f(void *
kubernetes - 命令以退出代码 7 终止
我有 3 个节点的 K8S 集群，我创建了 3 个副本 pod，应用程序 app1 在所有 pod 上运行，我通过运行 service yaml 文件建立了服务，我可以看到通过运行 kubectl g
nginx - 超时后不正常的 worker 终止
我打算使用 nginx 来代理 websocket。在执行 nginx reload/HUP 时，我知道 nginx 等待旧的工作进程停止处理所有请求。然而，在 websocket 连接中，这可能不会
cloud - 添加主机后 PVM 终止
在 Ubuntu 9.10 上使用 PVM 3.4.5-12(使用 apt-get 时的 PVM 包) 添加主机后程序终止。 laptop> pvm pvm> add bowtie-slave add
iphone - 音频将使 AVCaptureSession 终止
我编写了一个应用程序来从 iPhone 录制视频。它工作正常，但有一个大问题。当 AVCaptureSession 开始运行并且用户尝试从其库(iPod)播放音频时。此操作将使 AVCaptureSe
objective-c - NSRunningApplication - 终止
我将如何使用NSRunningApplication？我有与启动应用程序相反的东西: [[NSWorkspace sharedWorkspace] launchApplication:appName]
cocoa - 终止 NSTask 及其子任务
我正在使用 NSTask 执行一系列长时间运行的命令，如下所示: commandToRun = @"command 1;command2"; NSArray *arguments = [NSArray

首页

博学

6Ren·AI

商城

python - scrapy - 如果跟随无限网站则终止抓取