python - Scrapy 飞溅多次点击-6ren

python - Scrapy 飞溅多次点击

转载作者：太空宇宙更新时间：2023-11-03 15:25:16

24

4

我正在尝试从使用DataTables插件的网站上抓取代理例如，除了一件事之外，一切正常:蜘蛛抓取第一页和第二页，而不在其余页面上移动。

import scrapy
from scrapy_splash import SplashRequest


class SpiderManSpider(scrapy.Spider):
    name = 'usproxy'

    script = """
        function main(splash)
            local url = splash.args.url
            assert(splash:go(url))
            assert(splash:wait(1))

            assert(splash:runjs("$('.next').click();"))
            assert(splash:wait(1))

            return splash:html()
        end
        """

    def start_requests(self):
        yield SplashRequest(url='http://us-proxy.org', endpoint='render.html', callback=self.parse, args={'wait': 1})

    def parse(self, response):
        for data in response.css("tr"):
            yield {
                'ip': data.css("td:nth-child(1)::text").extract_first()
            }

        if response.xpath("//a[@id='proxylisttable_next' and @class='ui-state-disabled']").extract_first():
            self.logger.warning("button is disabled")
        else:
            yield SplashRequest(url=response.url, endpoint='execute', args={'lua_source': self.script, 'wait': 1},
                                callback=self.parse)

调试器显示它正在过滤所有重复的请求，因此我将 dont_filter 添加到 SplashRequest 中，这导致我出现无限循环，仅显示第二页的数据。

最佳答案

我也遇到了类似的问题。

似乎当执行 assert(splash:runjs("$('.next').click();")) 时，响应中要返回的 html 页面是更改为新的，但response.url 仍与初始请求的 url 相同。

可能的解决方案是将脚本中的 return 语句更改为:

return {
    splash:url(),
    splash:html(),
}

关于python - Scrapy 飞溅多次点击，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43205317/

24

4

0

文章推荐： python - Python技术指标的Excel xlwings数据输入

文章推荐： Python Tkinter Table适合窗口太多行/列

文章推荐： python - 使用 python 将列表中的单引号元素转换为双引号

文章推荐： python - 无法加载 PROJ.4 库

飞溅/加载屏幕的最佳方式
我有一个连接到 firebase (firestore) 的 flutter 应用。当用户打开应用程序时，我会检查他是用户类型 1 还是用户类型 2。+ 从网络等加载图像。但是完成所有这些事情可能
Flutter ListTile 飞溅/波纹效果与边框不匹配
我有一个 flutter 的 ListTile，但我似乎无法弄清楚如何使飞溅/波纹效果适合边框。我的边框是圆角的，但飞溅只是一个没有圆形边框的普通矩形，如下图所示。 ListTile 下面是 List
android - 飞溅 Activity 期间数据库加载缓慢
我在启动 Activity 中使用了数据库。但是每次启动我的应用程序所花费的时间都比上一次启动时间长。请帮助我查询。 private CreateDatabase db; @Override prot
android - 飞溅 Activity 延迟时间取决于过程
我像这样搜索时写了一个启动 Activity public class SplashActivity extends Activity{ private Utility utility; privat
android - 飞溅 Activity 而不是白屏
在我的应用程序启动时，出现大约两秒钟的白屏。在我搜索它之后，我发现那是因为布局繁重。我想知道是否可以用自定义启动画面替换那个白屏。最佳答案如果您希望使用启动画面是因为您希望用户在加载时看到某些内容
python - Scrapy + 飞溅 + ScrapyJS
我正在使用 Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1，但我仍然无法通过点击渲染 javascript。这是一个示例网址 https://olx.pt/a
javascript - Paper.js future 飞溅
我正在尝试制作一个 paper.js 示例，但我的问题是我不知道如何在没有的情况下使其工作。该脚本有效，但我想将 js 与 html 分开。 jsFiddle 谢谢最佳答案您可以使用外部js文
c++ - SFML 飞溅 Logo 窗口透明
SFML 只允许创建一个矩形(四四方方)形状的窗口，所有其他操作都在其中完成。我正在制作一个大富翁游戏，我基本上希望当用户单击可执行文件时大富翁 Logo 在屏幕上闪烁，并且它不必位于任何窗口内(只需
android - 飞溅 9 补丁废墟下一个 Activity
我有一个闪屏，中间有我公司的标志，下面有一个小进度条。我将启动画面作为第一个 Activity，在此之前，我会使用应用的主题背景显示启动画面的图像(没有进度条，只有 Logo )。我在应用程序的主题
python - Scrapy + 飞溅 : connection refused
我正在学习如何使用 scrapy + splash。我已经在虚拟环境中创建了一个项目，我现在正在做这个教程:https://github.com/scrapy-plugins/scrapy-splas
javascript - Scrapy + 飞溅 : can't select element
我正在学习将 scrapy 与 splash 一起使用。作为练习，我正在尝试访问 https://www.ubereats.com/stores/ ，单击地址文本框，输入一个位置，然后按 Enter
java - Mac 操作系统，Java 飞溅
我正在尝试将我的 Java 应用程序迁移到 Mac OS。当应用程序启动时，启动画面应该会出现。当我从终端运行应用程序时，它是这样的: java -classpath/the/right/clas
python - Scrapy 飞溅 : screenshot specific element
有没有办法截取 splash 中的特定元素？我似乎无法为此找到解决方案，我找到的唯一选择是使用“render.png”，它会截取整个页面的屏幕截图，我只需要一个特定的元素，例如“//table”。我
beagleboneblack - 通过 Uboot 的 HDMI 飞溅？
硬件:BeagleBoneBlack 操作系统:Debian Jessie 内核:4.4.30-ti-r64 U-Boot: U-Boot 2016.11-rc3-00002-g73df7f7(201
Powershell 飞溅 : pass ErrorAction = Ignore in hash table
这是一个脚本，用于列出在命令行上传递的目录/文件——是否递归: param( [switch] $r ) @gci_args = @{ Recurse = $r ErrorAction = I
android - Android Jetpack Navigation组件问题，飞溅 fragment 为根目标
假设我们有3个片段，其中包含带有向上按钮功能的工具栏 SplashFragment -> FragmentA -> FragmentB 这是应用程序的预期流程。当用户按下后退按钮到达FragmentB
Powershell 飞溅 : pass ErrorAction = Ignore in hash table
这是一个脚本，用于列出在命令行上传递的目录/文件——是否递归: param( [switch] $r ) @gci_args = @{ Recurse = $r ErrorAction = I
python - Scrapy 飞溅^ AttributeError : 'module' object has no attribute 'Spider'
不知道为什么，最近出现了一个错误: File "C:\Users\name\PycharmProjects\splash\project\project\spiders\scrapy.py", lin
javascript - scrapy + 飞溅 : trying to scrape website with ajax calls and javascript
我正在尝试从此网址抓取前 50 页: https://www.realtor.ca/Residential/Map.aspx#CultureId=1&ApplicationId=1&RecordsPe
javascript - 飞溅 API/lua 错误 : attempt to index local element (a nil value)
我正在编写一个 lua 脚本，我想将其与网站的 scrapy + splash 一起使用。我想写一个输入文本然后点击按钮的脚本。我有以下代码: function main(splash) loc

首页

博学

6Ren·AI

商城

python - Scrapy 飞溅多次点击