python - Scrapy CLOSESPIDER_PAGECOUNT 设置不能正常工作-6ren

python - Scrapy CLOSESPIDER_PAGECOUNT 设置不能正常工作

转载作者：太空宇宙更新时间：2023-11-04 07:36:17

26

4

我使用 scrapy 1.0.3，无法发现 CLOSESPIDER 扩展的工作原理。对于命令:scrapy 爬网 domain_links --set=CLOSESPIDER_PAGECOUNT=1正确的是一个请求，但对于两页计数:scrapy 爬网 domain_links --set CLOSESPIDER_PAGECOUNT=2是无限的请求。

所以请用简单的例子向我解释它是如何工作的。

这是我的爬虫代码:

class DomainLinksSpider(CrawlSpider):
    name = "domain_links"
    #allowed_domains = ["www.example.org"]
    start_urls = [ "www.example.org/",]

    rules = (

        # Extract links matching 'item.php' and parse them with the spider's method parse_item
        Rule(LinkExtractor(allow_domains="www.example.org"), callback='parse_page'),
    )

    def parse_page(self, response):
        print '<<<',response.url
        items = []
        item = PathsSpiderItem()

        selected_links = response.selector.xpath('//a[@href]')

        for link in LinkExtractor(allow_domains="www.example.org", unique=True).extract_links(response):
            item = PathsSpiderItem()
            item['url'] = link.url
            items.append(item)
        return items

甚至不能为这个简单的蜘蛛工作:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class ExampleSpider(CrawlSpider):
    name = 'example'
    allowed_domains = ['karen.pl']
    start_urls = ['http://www.karen.pl']

    rules = (
        # Extract links matching 'category.php' (but not matching 'subsection.php')
        # and follow links from them (since no callback means follow=True by default).


        # Extract links matching 'item.php' and parse them with the spider's method parse_item
    Rule(LinkExtractor(allow_domains="www.karen.pl"), callback='parse_item'),
    )

    def parse_item(self, response):
        self.logger.info('Hi, this is an item page! %s', response.url)
        item = scrapy.Item()

        return item

但不是无穷大:

scrapy 抓取示例 --set CLOSESPIDER_PAGECOUNT=1 '下载器/request_count': 1,

scrapy 抓取示例 --set CLOSESPIDER_PAGECOUNT=2 '下载器/request_count':17，

scrapy 抓取示例 --set CLOSESPIDER_PAGECOUNT=3 '下载器/request_count': 19,

可能是因为并行下载。是的，对于 CONCURRENT_REQUESTS = 1，CLOSESPIDER_PAGECOUNT 设置适用于第二个示例。我会检查第一个 - 它也有效。这对我来说几乎是无限的，因为包含许多 url(我的项目)的站点地图被抓取为下一页 :)

最佳答案

CLOSESPIDER_PAGECOUNT 由 CloseSpider 控制扩展，它对每个响应进行计数，直到达到其限制，即它告诉爬虫进程开始结束(完成请求并关闭可用插槽)的时间。

现在，当您指定 CLOSESPIDER_PAGECOUNT=1 时，您的蜘蛛程序结束的原因是因为在那一刻(当它收到第一个响应时)没有pending 请求，它们是在你的第一个之后创建的，所以爬虫进程准备结束，不考虑后面的(因为它们将在第一个之后创建)。

当您指定 CLOSESPIDER_PAGECOUNT>1 时，您的蜘蛛会被捕获并创建请求并填充请求队列。当蜘蛛知道何时完成时，仍有待处理的请求需要处理，这些请求作为关闭蜘蛛的一部分执行。

关于python - Scrapy CLOSESPIDER_PAGECOUNT 设置不能正常工作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34528524/

26

4

0

文章推荐： c - Mex 链接 visa32.lib

文章推荐： java - SWT Tree - 可以降低 native 展开图标吗？

文章推荐：更改文件内容

文章推荐： python - 重命名文件夹中的文件名 - Python

html - 多个背景相互叠加(正常、拉伸(stretch)、正常)
自从我 faced an issue由于背景图片对于不同分辨率的内容来说太短，我尝试将背景分成 3 部分并自动拉伸(stretch)中间部分以相应地填充顶部和底部图像之间的空间。不幸的是我没能在 CS
c++ - QtCUrl post 不再有效(Linux 正常...windows 正常)
我从去年开始就在我的程序中运行这个函数(Linux 和 Windows)。现在我需要实现一个新功能，我的新构建不再运行。我还有其他使用 POST 的 CUrl 函数，结果是一样的:没问题，但我的
haskell - 正常/应用订单减少
在评估函数应用方面，Haskell 是只支持普通降阶还是也支持应用降阶？我是否认为正常顺序是 Haskell 惰性的原因？最佳答案 GHC 运行时不使用术语缩减策略，因为那会非常低效。事实上，GHC
python - 多处理比单个(正常)处理花费的时间更长
怎么来的multi使用多处理池对多个“进程”上的数据进行分段和处理的函数比仅调用 map 慢(8 秒)。功能(6 秒)？ from multiprocessing import Pool import
c++ - OpenGL glVertexAttribPointer 正常
假设我正在渲染一个 3d GL_TRIANGLE。该对象需要 3 个顶点才能定义:A、B、C。我将此类数据放入缓冲区并通过 glVertexAttribPointer 将其绑定(bind)到着色器。
css - 字体粗细(正常、粗体……)
我有一个字体的三个文件，普通的，粗体的和浅色的。由于 font-weight:light 不存在，我该如何在 font-face 上设置 light 呢？顺便问一下，font-weight:ligh
C free() 下一个尺寸无效(正常)
我是 C 的新手，我似乎无法弄清楚什么似乎是一个非常简单的指针问题。我的程序将行号添加到文件中。它逐行读入文件，然后在每行的开头添加一个行号。它在每个文件上都可以正常工作，如下所示: soccer@s
c++ - 正常 block 后检测到堆损坏
我有以下代码，我不确定为什么当它命中 Myclass 的析构函数时我会收到堆损坏检测错误。我相信我正在正确地释放内存？？ #include #include using namespace std
java - 正常 - RPN 转换
有什么方法可以将“正常”数学符号解释为逆波兰符号 (RPN)..？例如1) 2 + 3*4 - 1 = 234*+1-2) 5 (4-8) = 548- 你可以假设遵循 BODMAS 规则并且必须首
css - 三星和苹果默认浏览器样式错误，Chrome 正常
http://www.ergotopia.de/ergonomie-shop/ergonomische-kissen/orthopaedisches-sitzkissen的手机页面应该看起来像右边(检
iOS 无法找到插件，Android 正常
我正在 Phonegap/Cordova 中构建一个应用程序。应用目前相当简单，但确实需要网络状态和地理定位插件才能工作。到目前为止，我已经在 Android 上开发了该应用程序(目前它仅由一些基本
python - TfidfVectorizer 出错但 CountVectorizer 正常
我一整天都在做这个，但没有运气我设法在一行 TfidfVectorizer 中消除了问题这是我的工作代码 from sklearn.feature_extraction.text import C
android - 按下按钮后应用程式当机，但 Action 正常
也许有人看到一个错误，问题是当我按btn2 (button 2)和btn3 (button 3)应用程序crashes时，但操作仍然有效，即video正在运行并且PDF打开，而button 1正常工作
java - 正常 Activity 和选项卡 Activity
我正在开发一个应用程序。它的第一页是登录屏幕。成功登录后，我想将用户带到选项卡式 Activity 。我怎样才能在安卓中做到这一点？谢谢最佳答案在 Android 中，启动 Activity 是通
Vim 正常!发送文字字符串而不是空白字符
我不确定我在这里做错了什么。 :normal! I### 当我对一个单词执行此命令时，我想要的最终结果是: ### word 但是我得到了这个: ###word 最佳答案 Vim 的 :normal是
c - 正常 block 后检测到堆损坏(#63)
我必须将 2 个静态矩阵发送到分配动态矩阵的函数，将矩阵 1 乘以矩阵 2，并返回新矩阵的地址。请注意，COMM 很常见。我尝试删除 free_matrix 行，它工作正常。 void main()
c - GList 行为错误 - 下一个大小无效(正常)
我在我的一个项目中使用 Gnome libglib 并遇到了一个奇怪的错误。我可以输入 GList 的元素数量看起来仅限于 45 个。在第 45 个元素处，它给出了此错误 40 counter 41
c - 获取窗口的当前尺寸，无论最小/正常/最大化状态如何
我正在尝试获取“顶级”HWND 的尺寸。即，我想要 Firefox/Windows 资源管理器等的主 HWND 的当前尺寸。窗口。如果窗口最小化， GetWindowRect() 将不起作用。 Get
php - 什么是索引 - 正常 - 全文 - 唯一
相同的标题:什么是索引 - 正常 - 全文 - 唯一？最佳答案普通索引用于通过仅包含行数据的切片或散列来加速操作。全文索引向数据库的全文搜索 (FTS) 引擎指示它应该将数据存档在给定字段中，以
c++ - gcc - 定义模板时出现多重定义错误(vc++ 正常)
我正在使用 EnumParser来自 here它在 VC++ 中编译得很好，但是使用 gcc 我有这样的错误: ./Terminator.o: In function `EnumParser::Enu

首页

博学

6Ren·AI

商城

python - Scrapy CLOSESPIDER_PAGECOUNT 设置不能正常工作