How can I limit the number of pages scraped with Scrapy CrawlSpider?(我如何才能限制CrawlSpider抓取的页面数量？)-6ren

How can I limit the number of pages scraped with Scrapy CrawlSpider?(我如何才能限制CrawlSpider抓取的页面数量？)

转载作者：bug小助手更新时间：2023-10-25 17:13:03

26

4

I want to limit the number of pages scraped to 5 with below code although the website has 50 pages. I'm using Scrapy's CrawlSpider. How can I do that?

我想限制的页数刮到5以下的代码，尽管该网站有50页。我用的是Scrapy的爬虫蜘蛛。我怎么能做到这一点？

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class BooksSpider(CrawlSpider):
    name = "bookscraper"
    allowed_domains = ["books.toscrape.com"]
    start_urls = ["https://books.toscrape.com/"]

    rules = (Rule(LinkExtractor(restrict_xpaths='//h3/a'), callback='parse_item', follow=True),
             Rule(LinkExtractor(restrict_xpaths='//li[@class="next"]/a'), follow=True),)

    def parse_item(self, response):

        product_info = response.xpath('//table[contains(@class, "table-striped")]')

        name = response.xpath('//h1/text()').get()
        upc = product_info.xpath('(./tr/td)[1]/text()').get()
        price = product_info.xpath('(./tr/td)[3]/text()').get()
        availability = product_info.xpath('(./tr/td)[6]/text()').get()

        yield {'Name': name, 'UPC': upc, 'Availability': availability, 'Price': price}

更多回答

优秀答案推荐

You can use CLOSESPIDER_PAGECOUNT setting. It will be the right way
https://docs.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider
Use this setting in project settings or you can override setting in your spider (if you using this setting only for this concrete spider)
可以使用CLOSESPIDER_PAGECOUNT设置。这将是https://docs.scrapy.org/en/latest/topics/extensions.html#module-scrapy.extensions.closespider在项目设置中使用此设置的正确方式，或者您可以覆盖爬行器中的设置(如果您仅将此设置用于此具体爬行器)

Also you can use deny param and spider will stop scan on fifth page.
https://docs.scrapy.org/en/latest/topics/link-extractors.html#module-scrapy.linkextractors.lxmlhtml
你也可以使用拒绝参数，蜘蛛会在第五页停止扫描。Https://docs.scrapy.org/en/latest/topics/link-extractors.html#module-scrapy.linkextractors.lxmlhtml
```
  Rule(LinkExtractor(restrict_xpaths='//li[@class="next"]/a', deny=('page-5',)), follow=True)
```

Also you can use DEPTH_LIMIT spider setting like: DEPTH_LIMIT=5
https://docs.scrapy.org/en/latest/topics/settings.html?highlight=DEPTH_LIMIT#depth-limit
您还可以使用Depth_Limit爬行器设置，如：Depth_Limit=5 https://docs.scrapy.org/en/latest/topics/settings.html?highlight=DEPTH_LIMIT#depth-limit

更多回答

Well I have already tried that in my spider but still it seems that the spider is only scraping the first page

嗯，我已经在我的蜘蛛身上试过了，但蜘蛛似乎只刮了第一页

@BilalAnees check my answer again

@BilalAnees再次检查我的答案

26

4

0

php - 这个语法是什么 ( page = $page ？ $page : 'default' ) in PHP mean?
我是 PHP 新手。我在 WordPress 中遇到了这种语法.该代码的最后一行是做什么的？ $page = $_SERVER['REQUEST_URI']; $page = str_replace(
WordPress 管理员 : show draft pages in page attributes parent page dropdown
为了清楚起见 - 这是我在这个问题中谈论的盒子的图片: 背景:我为客户构建了一个相对复杂的 WP 网站，它更像是一个 CMS 而不是博客，并且依赖于正在构建的页面层次结构。 (嗯，它们实际上是设置了
github-pages - GitHub Pages 是否允许使用 master 或 gh-pages 以外的分支？
GitHub Help显示了 GitHub Pages 的以下选项: gh-pages 分行主分支 master 分支/docs 文件夹那么我们可以使用名称不是 master 或 gh-pages
javascript - Angularjs登录认证: Prevent user navigate to other page except login page and registration page
我正在使用 AngularJS 框架为我的前端开发一个 Web 应用程序。对于我的登录页面，我必须阻止用户浏览除登录页面和注册之外的其他页面。但是我现在所做的代码也阻止用户导航到注册页面。以下是我的代
zend-framework - Zend_Paginator : no page number on links on a page with no page number specified by the URL
如果不将/1 粘贴到 url 上，是否可以改变 Zend_Paginator 来处理 URL？当前用户转到/aaron/studio。然后用户应该点击页面并开始访问 URL，例如:/aaron/stu
php - FPDF/PHP : Footer page is display at the bottom of the next page (Blank page)
目前，我创建了一个可以生成PDF的系统。 PDF 中的数据来自 MySQL 数据库。现在，我像这样显示数据第一页:仅显示一条数据。第二页文字:将显示数据(每页最多 3 个数据) 说得更清楚一点，比
c# - URL 路由需要/Home/Page?page=1 而不是/Home/Page/1
我正在尝试构建我的 ASP.NET MVC 4.5 项目以使用搜索引擎友好的 URL。我正在使用以下路由映射。 routes.MapRoute( name: "Default", ur
c# - Crystal 报表出现 "Page Header plus Page Footer is too large for the page"错误的原因是什么？
我为打印按钮使用了以下代码: Data.str = null; //Data.str = textBox24.Text.ToString(); string s = "select * from te
javascript - jQuery 手机 : Multi-Page Application with Separate Pages: Second Page not Getting Styled
我们有一个带有两个 View 的单页应用程序(本质上是一个项目列表和所选项目的详细信息页面)。两个 View 都在单独的 html 文件中，我们使用 sammy.js 在页面之间进行转换/导航。在我们
android - 查看页面 : If page get removed the next pages content gets the removed pages content
(如果有人需要更多信息或更好的描述，请告诉我) 您好，我从这里添加了 viewPagerLibrary:http://viewpagerindicator.com/#introduction今天在我的
razor - 在 Razor 项目中，Content Page、Empty Page 和 Web Page Razor 之间有什么区别
我是网页的新手，刚刚开始学习它。在创建新的 Razor 网站后，当我点击添加新项目时，我会看到可以添加的项目的多个选项。它们是: Layout Page(Razor) 这些类似于Master Page
ruby-on-rails - 将 ID 传递给静态路由——匹配 page.url => "pages#show", :id => page. id——不起作用
我正在尝试使用 activeadmin 和 awesome_nested_set 创建页面模型。我一直在试图弄清楚如何使用正确的尾随 slug(例如/page1/page1subpage/a-subp
asp.net-mvc - Razor - 如何从 this.Page(动态 WebPageBase.Page)转换为 System.Web.UI.Page
我正在尝试将 DotNetOpenAuth 与 Razor/MVC3 一起使用。大多数 DotNetOpenAuth HTML 助手都接受 System.Web.UI.Page 作为参数之一，使用 W
javascript - jQuery 手机 : the styles for the next page are applied to the current page while making a server connection during page navigation
在我们的应用程序中，当我们在某些页面之间导航时，我们会在进入下一页之前发出服务器请求。发生这种情况时，当前页面上会显示加载图形。奇怪的是，在等待服务器响应完成时，下一页的样式会应用到当前页面。这会导致
razor-pages - ASP.NET Core 3.1 Razor 页面 : How to automatically redirect to Login page from Index page?
我正在使用 ASP.NET Core 3.1 MVC 和 Razor 页面构建 Web 应用程序。我是 Razor 页面的新手。我使用上面的方法创建了一个基本应用程序。我想在应用程序启动时加载登录
templates - umbraco模板错误: "Content controls have to be top-level controls in a content page or a nested master page that references a master page."
我遇到了一个我似乎无法解释的问题。我在 Umbraco 中设置了一个主模板和 2 个子模板，但出现以下错误: Content controls have to be top-level control
javascript - 用户输入的 If 语句放置(带有 code.gs、page.html、page-css.html、page-js.html 的谷歌应用程序脚本)
我正在创建一个网络应用程序，允许用户选择他们当前的部门、他们将临时借调到哪个部门、他们正在执行的任务以及在任务上花费的时间。我需要写一些声明，根据他们当前部门的选择来确定他们所在的团队(当前的或新的)
Gatsby error, I am getting the 404 page with error saying that there is no page at this URL until I refresh the page again(Gatsby错误，我正在获取404页面，错误是说在我再次刷新页面之前，此URL上没有页面)
当我导航到一个页面时，我得到了404错误页面，该页面说，在我刷新浏览器之前，没有包含此URL的页面，然后该页面才会显示。。我尝试使用@REACH/ROUTER来导航，而不是使用REACT-ROUTER
php - html2pdf: 生成一个空白页
我正在使用 Html2Pdf 将一些 HTML 文件转换为 PDF。我还需要添加分页符来划分文档的各个部分。为此，我使用标签。我有以下 HTML 片段: ...
github-pages - 使用GitHub Pages，可以在不使用Jekyll时指定根Web目录吗？
我正在使用另一个静态网站生成器，我希望能够将源文件(以markdown格式)以及生成的网站 checkin 到我的username.github.com存储库中。因此，很像Jekyll，但我没有使用J

首页

博学

6Ren·AI

商城

How can I limit the number of pages scraped with Scrapy CrawlSpider?(我如何才能限制CrawlSpider抓取的页面数量？)