python - Scrapy 无法点击所有页面

转载作者：太空宇宙更新时间：2023-11-03 16:23:47

27

4

我正在使用 Scrapy 抓取网上商店。产品是动态加载的，这就是我使用 Selenium 来爬行页面的原因。我开始抓取所有类别，然后为主函数调用这些类别。

在爬行每个类别时都会出现问题:蜘蛛被指示从第一页抓取所有数据，然后单击按钮进入下一页，直到没有按钮为止。如果我只是将一个类别 url 作为 start_url 输入，该代码就可以正常工作，但奇怪的是，如果我在主代码中运行它，它不会点击所有页面。在单击所有下一步按钮之前，它会随机切换到新类别。

我不知道为什么会出现这种情况。

import scrapy
from scrapy import signals
from scrapy.http import TextResponse
from scrapy.xlib.pydispatch import dispatcher
from horni.items import HorniItem

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
from selenium.webdriver.common.keys import Keys

class horniSpider(scrapy.Spider):
    name = "final"
    allowed_domains = ["example.com"]
    start_urls = ['https://www.example.com']

    def parse(self, response):
        for post in response.xpath('//body'):
            item = HorniItem()
            for href in response.xpath('//li[@class="sub"]/a/@href'):
                item['maincategory'] = response.urljoin(href.extract())
                yield scrapy.Request(item['maincategory'], callback = self.parse_subcategories)

    def parse_subcategories(self, response):
        item = HorniItem()
        for href in response.xpath('//li[@class="sub"]/a/@href'):
            item['subcategory'] = response.urljoin(href.extract())
            yield scrapy.Request(item['subcategory'], callback = self.parse_articles)


    def __init__(self):
            self.driver = webdriver.Chrome()
            dispatcher.connect(self.spider_closed, signals.spider_closed)

    def spider_closed(self, spider):
            self.driver.close()

    def parse_articles(self, response):
            self.driver.get(response.url)
            response = TextResponse(url=self.driver.current_url, body=self.driver.page_source, encoding='utf-8')
            item = HorniItem()
            for sel in response.xpath('//body'):
                item['title'] = sel.xpath('//div[@id="article-list-headline"]/div/h1/text()').extract()
                yield item
            for post in response.xpath('//body'):
            id = post.xpath('//a[@class="title-link"]/@href').extract()
            prices = post.xpath('///span[@class="price ng-binding"]/text()').extract()
                articles = post.xpath('//a[@class="title-link"]/span[normalize-space()]/text()').extract()
                id = [i.split('/')[-2] for i in id]
            prices = [x for x in prices if x != u'\xa0']
                articles = [w.replace(u'\n', '') for w in articles]
                result = zip(id, prices, articles)
                for id, price, article in result:
                        item = HorniItem()
                        item['id'] = id
                item['price'] = price
                        item['name'] = article
                        yield item
            while True:
                next = self.driver.find_element_by_xpath('//div[@class="paging-wrapper"]/a[@class="paging-btn right"]')
                try:
                        next.click()
                    response = TextResponse(url=self.driver.current_url, body=self.driver.page_source, encoding='utf-8')
                item = HorniItem()
                    for post in response.xpath('//body'):
                    id = post.xpath('//a[@class="title-link"]/@href').extract()
                    prices = post.xpath('///span[@class="price ng-binding"]/text()').extract()
                        articles = post.xpath('//a[@class="title-link"]/span[normalize-space()]/text()').extract()
                        id = [i.split('/')[-2] for i in id]
                    prices = [x for x in prices if x != u'\xa0']
                        articles = [w.replace(u'\n', '') for w in articles]
                        result = zip(id, prices, articles)
                        for id, price, article in result:
                            item = HorniItem()
                                item['id'] = id
                        item['price'] = price
                                item['name'] = article
                                yield item
                except:
                        break

更新

看来问题出在 DOWNLOAD_DELAY 设置上。由于网站上的下一步按钮实际上不会生成新的 url，而只是执行 JavaScript，因此网站 URL 不会更改。

最佳答案

我找到了答案:

问题在于，由于页面内容是动态生成的，因此单击 NEXT 按钮实际上并未更改 url。与项目的 DOWNLOAD_DELAY 设置相结合，这意味着蜘蛛会在页面上停留给定的时间，无论它是否能够单击所有可能的 NEXT-按钮。

将 DOWNLOAD_DELAY 设置得足够高，可以让蜘蛛在每个网址上停留足够长的时间并抓取每个页面。

问题是，这会迫使蜘蛛在每个网址上等待设定的时间，即使没有NEXT按钮可供点击。但是好吧...

关于python - Scrapy 无法点击所有页面，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38180300/

27

4

0

文章推荐： ruby x,y = gets.split.map & :to_i

文章推荐： python - 请求响应中没有数据

scrapy - 如何在 scrapy Shell 中使用 scrapy 中间件？
在一个 scrapy 项目中，人们经常使用中间件。在交互式 session 期间是否也有一种通用方法可以在 scrapy shell 中启用中间件？最佳答案尽管如此，在 setting.py 中设
scrapy - scrapy-splash如何处理无限滚动？
我想对网页中向下滚动生成的内容进行反向工程。问题出在url https://www.crowdfunder.com/user/following_page/80159?user_id=80159&li
scrapy - 相对URL到绝对URL Scrapy
我需要帮助将相对URL转换为Scrapy Spider中的绝对URL。我需要将起始页面上的链接转换为绝对URL，以获取起始页面上已草稿的项目的图像。我尝试使用不同的方法来实现此目标失败，但是我陷入了
scrapy - Python Scrapy 错误。不再支持使用多个蜘蛛运行 'scrapy crawl'
我在 Scrapy Python 中制作了一个脚本，它在几个月内一直运行良好(没有更改)。最近，当我在 Windows Powershell 中执行脚本时，它引发了下一个错误: scrapy craw
scrapy - 飞溅内存限制(scrapy)
我已经从 docker 启动了 splash。我为 splash 和 scrapy 创建了大的 lua 脚本，然后它运行我看到了问题: Lua error: error in __gc metamet
scrapy - 让 Scrapy 从上一个断点继续爬行
我正在使用scrapy 来抓取网站，但发生了不好的事情(断电等)。我想知道我怎样才能从它坏了的地方继续爬行。我不想从种子开始。最佳答案这可以通过将预定的请求持久化到磁盘来完成。 scrapy c
scrapy - Scrapy 暂停/恢复如何工作？
有人可以向我解释一下 Scrapy 中的暂停/恢复功能是如何实现的吗？作品？ scrapy的版本我正在使用的是 0.24.5 documentation没有提供太多细节。我有以下简单的蜘蛛: cla
scrapy - Apscheduler+scrapy 信号仅适用于主线程
我想将 apscheduler 与 scrapy.but 我的代码是错误的。我应该如何修改它？ settings = get_project_settings() configure_logging
scrapy - 为什么 Scrapy 很慢？
我正在抓取一个网站并解析一些内容和图像，但即使对于 100 页左右的简单网站，完成这项工作也需要数小时。我正在使用以下设置。任何帮助将不胜感激。我已经看过这个问题- Scrapy 's Scrapyd
scrapy - 为什么 Scrapy 很慢？
我正在抓取一个网站并解析一些内容和图像，但即使对于 100 页左右的简单网站，完成这项工作也需要数小时。我正在使用以下设置。任何帮助将不胜感激。我已经看过这个问题- Scrapy 's Scrapyd
scrapy - 使用 Scrapy 增量爬取网站
我是爬行新手，想知道是否可以使用 Scrapy 逐步爬行网站，例如 CNBC.com？例如，如果今天我从一个站点抓取所有页面，那么从明天开始我只想收集新发布到该站点的页面，以避免抓取所有旧页面。感谢
scrapy - 如何使用 Scrapy 下载图片？
我是scrapy的新手。我正在尝试从 here 下载图像.我在关注 Official-Doc和 this article . 我的 settings.py 看起来像: BOT_NAME = 'shop
python - Scrapy:已抓取 0 页(可在 scrapy shell 中使用，但不适用于 scrapy crawl spider 命令)
我在使用 scrapy 时遇到了一些问题。它没有返回任何结果。我试图将以下蜘蛛复制并粘贴到 scrapy shell 中，它确实有效。真的不确定问题出在哪里，但是当我用“scrapy crawl rx
scrapy - 使用 Scrapy 抓取多个 URL
如何使用 Scrapy 抓取多个 URL？我是否被迫制作多个爬虫？ class TravelSpider(BaseSpider): name = "speedy" allowed_d
scrapy - 如何确保 scrapy-splash 已成功渲染整个页面
当我使用splash渲染整个目标页面来爬取整个网站时出现问题。某些页面不是随机成功的，所以我错误地获取了支持渲染工作完成后出现的信息。这意味着我尽管我可以从其他渲染结果中获取全部信息，但仅从渲染结果中
scrapy - 使用 Scrapy 抓取多个 URL
如何使用 Scrapy 抓取多个 URL？我是否被迫制作多个爬虫？ class TravelSpider(BaseSpider): name = "speedy" allowed_d
scrapy - 如何将所有 CPU 内核用于 Scrapy
我的scrapy程序无论如何只使用一个CPU内核CONCURRENT_REQUESTS我做。 scrapy中的某些方法是否可以在一个scrapy爬虫中使用所有cpu核心？ ps:好像有争论max_pr
python - Scrapy - 动态等待页面加载 - selenium + scrapy
我最近用 python 和 Selenium 做了一个网络爬虫，我发现它做起来非常简单。该页面使用 ajax 调用来加载数据，最初我等待固定的 time_out 来加载页面。这工作了一段时间。之后，我
python - Scrapy:scrapy server需要一个项目，为什么？
我想用这个命令运行 scrapy 服务器: scrapy server 它失败了，因为没有项目。然后我创建一个空项目来运行服务器，并成功部署另一个项目。但是，scrapy 服务器无法处理这个项目，并告
python - Scrapy - 在一个 scrapy 脚本中抓取不同的网页
我正在创建一个网络应用程序，用于从不同网站抓取一长串鞋子。这是我的两个单独的 scrapy 脚本: http://store.nike.com/us/en_us/pw/mens-clearance-s

首页

博学

6Ren·AI

商城

python - Scrapy 无法点击所有页面

更新