python - 来自官方 Github 的 ScrapyJS 示例未运行-6ren

python - 来自官方 Github 的 ScrapyJS 示例未运行

转载作者：行者123 更新时间：2023-11-28 18:33:33

25

4

我正在尝试编写一个获取 javascript 代码的小型网络解析器。为此，我尝试使用 ScrapyJS 通过 Javscript 扩展 Scrapy。

我已按照 the official repository 上的安装说明进行操作.Scrapy 本身工作正常，但来自 scrapyJS 的第二个示例(获取 HTML 内容和屏幕截图:)却不行。所以希望我的问题能帮助其他遇到同样问题的人 ;)

我的设置和代码如下(如果需要的话):

首先，我通过 sudo -H pip install scrapyjs
然后，我运行以下命令:sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash
之前，我更改了我的 scrapy 项目的 settings.py。我添加了以下几行:
DOWNLOADER_MIDDLEWARES = { 'scrapyjs.SplashMiddleware': 725, } DUPEFILTER_CLASS = 'scrapyjs.SplashAwareDupeFilter' HTTPCACHE_STORAGE = 'scrapyjs.SplashAwareFSCacheStorage'
完整的 python 代码如下所示:

:

import json
import base64
import scrapy
class MySpider(scrapy.Spider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/"
    ]

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, self.parse_result, meta={
            'splash': {
                'args': {
                    'html': 1,
                    'png': 1,
                    'width': 600,
                    'render_all': 1,
                }
            }
        })

    def parse_result(self, response):
        data = json.loads(response.body_as_unicode())
        body = data['html']
        png_bytes = base64.b64decode(data['png'])
        print body

我收到以下错误:

2016-01-07 14:08:16 [scrapy] INFO: Enabled item pipelines: 
2016-01-07 14:08:16 [scrapy] INFO: Spider opened
2016-01-07 14:08:16 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-01-07 14:08:16 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-01-07 14:08:16 [scrapy] DEBUG: Retrying <POST http://127.0.0.1:8050/render.json> (failed 1 times): 400 Bad Request
2016-01-07 14:08:16 [scrapy] DEBUG: Retrying <POST http://127.0.0.1:8050/render.json> (failed 2 times): 400 Bad Request
2016-01-07 14:08:16 [scrapy] DEBUG: Gave up retrying <POST http://127.0.0.1:8050/render.json> (failed 3 times): 400 Bad Request
2016-01-07 14:08:16 [scrapy] DEBUG: Crawled (400) <POST http://127.0.0.1:8050/render.json> (referer: None)
2016-01-07 14:08:16 [scrapy] DEBUG: Ignoring response <400 http://127.0.0.1:8050/render.json>: HTTP status code is not handled or not allowed
2016-01-07 14:08:16 [scrapy] INFO: Closing spider (finished)

所以其实我也不知道错误在哪里。 Scrapy 单独工作。如果我添加 SPLASH_URL = 'http://192.168.59.103:8050'，我将收到超时错误。那时什么都没有发生。 Localhost:8050 都不起作用。将 SPLASH_URL 留空可以解决错误，但随后我会收到上述错误。

最佳答案

您需要传递非零“等待”才能呈现完整网页。

所以只要添加 'wait': 0.5 就可以了。

def start_requests(self):
    for url in self.start_urls:
        yield scrapy.Request(url, self.parse_result, meta={
        'splash': {
            'args': {
                'html': 1,
                'png': 1,
                'width': 600,
                'render_all': 1,
                'wait': 0.5
            }
        }
    })

关于python - 来自官方 Github 的 ScrapyJS 示例未运行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34656424/

25

4

0

文章推荐： javascript - Promise.resolve().then 在 Jasmine 测试中不起作用

文章推荐： ios - 特立独行者和 iOS 7 的 Theos 错误

文章推荐： html - 如何用CSS分离html标题和内容并使内容可滚动

官方：小米手表尊享版将延期至2020年2月开售
今天上午据小米穿戴官方消息，为了保障更好的使用体验和更充足的备货，小米手表尊享版将延期至2020年2月开售。据了解，早在今年11月初小米正式发布小米手表，共有标准版和尊享版两个版本，价格分别为1
docker - 官方 docker 镜像是否跨平台兼容？
我的意思是，如果我可以运行例如官方 docker 镜像 DEBIAN 并在此之上运行具有相同支持架构的官方 docker 镜像 NGINX，例如Linux x86-64？它会像我以非 docker
.net - 官方 LINQ 扩展方法
在 .NET 3.5 中，大量扩展方法被添加到核心代码库中。我注意到在 MSDN 中，IEnumerable<> 等添加了有关扩展方法的部分。是否有已添加的所有扩展方法的列表以供引用？编辑感谢您的
java - 官方(且丑陋的)顺序组合的替代方案
在vertx指南中，链接异步调用的顺序组合如下所示: FileSystem fs = vertx.fileSystem(); Future startFuture = Future.future();
java - 官方 neo4j 文档中的这个示例单元测试实际测试的是什么？
neo4j 文档有 this page about creating unit tests for neo4j. 本质上它建议我们创建一个模拟数据库使用 graphDb = new TestGraph
c++ - 官方 ld 链接器规范
我是 C++ 的新手，我想了解链接器是如何正式工作的。我正在使用 Linux Mint 16。是否存在 ld 链接器官方规范？最佳答案您可能会对链接器和共享库有更多了解 here还有here是 l
c++ - 官方 C++ 语言和基类库文档？
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以
Android Auto 自定义应用程序 - 官方
我想创建一个自定义 Android 汽车应用程序，而不会分散驾驶员的注意力。我浏览了很多博客和网站，发现自 3.0 版本以来曾经有一些自定义应用程序被屏蔽。这些自定义应用程序的开发人员使用的是非官方的
android - 官方 WhatsApp 贴纸示例应用程序出错
我刚找到 this Project就像。嘿。为什么不尝试使用它呢？所以。刚刚下载它(我没有做任何更改!)，打开 Android Studio，运行它，然后遇到以下问题。 error: cannot
postgresql - 官方 Postgres 图像如何使用环境变量创建用户和数据库？
Docker 的官方 Postgres 镜像使用两个环境变量:POSTGRES_USER 和 POSTGRES_PASSWORD 参数化数据库创建: https://registry.hub.dock
Python 官方 key 服务器
我刚刚从 Python download page 下载了 Python 2.7.3 64 位安装程序我想验证签名。所以我需要导入 key ，我的首选方法是从受信任的 key 服务器获取它们。 Pyt
Android 官方 Camera2Basic 示例代码已过时？
当我安装 Andoird 5.0 SDK 并导入 Camera2Basic 示例源代码时。CameraDevice.StateListener 和 CameraCaptureSession.State
android - 官方 Fragment 开发者指南自相矛盾吗？
在Design Philosophy节official Fragment guide ，它说: You should design each fragment as a modular and reu
c# - 类型的类型的(官方)术语是什么？
我正在使用 Roslyn 编写一个应用程序来从语法和语义上分析 C# 源代码。对于正在分析的源代码中定义的每种类型，我想存储它是引用类型(类)、值类型(结构)还是接口(interface)。类型的类
xml - 官方 XSLT 验证器？
有没有官方的 XSLT 验证器，比如 http://validator.w3.org/用于 HTML 和 XHTML？我知道http://validator.w3.org/也可用于验证 XML 和
c++ - 官方 C++ 语言子集
我主要使用 C++ 进行科学计算，最近我一直将自己限制在一个非常类似于 C 的 C++ 特性子集；即，除了复杂和 STL 之外没有类/继承，模板仅用于查找/替换各种替换，以及其他一些我无法用语言表达的
webfonts - 如何从(官方)Google Web字体存储库下载多种格式的Web字体？
我了解到Google会根据访问它的浏览器/设备来自动提供 TTF ， EOT ， WOFF 或 SVG 字体文件。现在，我计划从服务器本身托管和提供字体文件，为此，我首先必须下载Web字体的所有文件
kinect - 官方 Kinect SDK 与开源替代品
他们有什么不同？例如，与官方 SDK 相比，选择 libfreenect 或 OpenNI+SensorKinect 有什么优势，反之亦然？有什么缺点？最佳答案请注意，以下答案是按日期计算的，
docker - Terraform 官方 Docker 镜像看不到我的文件
我想使用官方的 Hashicorp 镜像来运行 Terraform 而不是手动安装。我已经关注了 dockerhub 上的文档，但没有关于如何在何处安装卷的任何详细信息 - 例如在当前目录中使用“ma
php - 官方 XBOX Live API？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 5 年前。

首页

博学

6Ren·AI

商城

python - 来自官方 Github 的 ScrapyJS 示例未运行