scrapy - 是不是scrapy可以直接使用Phantomjs下载页面源来渲染？-6ren

scrapy - 是不是scrapy可以直接使用Phantomjs下载页面源来渲染？

转载作者：行者123 更新时间：2023-12-01 15:19:42

25

4

在我的自定义下载器中间件中:

    def process_request(self, request, spider):
        if spider.name == 'UrlSpider':
            res = requests.get(request.url)
            return HtmlResponse(request.url, body=res.content, encoding='utf-8', request=request)

我想在def process_response中渲染response.body，我该怎么办？

最佳答案

有一个 scrapy 中间件可以做到这一点:它将通过 PhantomJS 运行您的请求，并且您的响应将包含呈现的 html。

你可以在这里找到它，它对我来说效果很好(尽管它的作者说它没有经过很好的测试):https://github.com/brandicted/scrapy-webdriver

如果你没有绑定(bind)到 PhantomJS，你也可以看看 https://github.com/scrapy-plugins/scrapy-splash因为这更好地维护(由开发scrapy的同一个人)。

更新

如果你只想通过 PhantomJS 抓取一些页面，我看到了两种可能的方法:

最有可能做一些 Javascript 魔术来从您的 response.body 注入(inject) html。进入 PhantomJS 并使其呈现此页面。

这正是您想要的，但要做到这一点可能有点困难。 (一直在用 PhantomJS 做一些 Javascript 魔术，但它通常不像我希望的那样容易)。

您可以将 PhantomJS 下载器与标准中间件并行注册并加载您要第二次渲染的页面，但这次是通过 PhantomJS 下载器。

为此在 settings.py 中激活 PhantomJS 下载器，如下所示。 :

# note the 'js-' in front of http
DOWNLOAD_HANDLERS = {
    'js-http': 'scrapy_webdriver.download.WebdriverDownloadHandler',
    'js-https': 'scrapy_webdriver.download.WebdriverDownloadHandler',
}

然后在您的 parse 方法中:

def parse(self, response):
    if should_be_rendered(response):
        phantom_url = response.url.replace("http", "js-http")
        # do the same request again but this time through the WebdriverDownloadHandler
        yield Request(phantom_url, ...)

关于scrapy - 是不是scrapy可以直接使用Phantomjs下载页面源来渲染？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43647403/

25

4

0

文章推荐： scrapy - 为什么我的 scrapy 总是告诉我 "TCP connection timed out"

文章推荐： scrapy - 如何在运行时监控scrapy的状态

文章推荐： xaml - xaml 命名空间的 resharper 命名规则

文章推荐： scrapy - 如何在 scrappy 中手动执行 Request 对象？

python - 是不是 "OK"才开始给Skyfield对象添加属性？
此处，“OK”当然意味着 AYOR(风险由您自己承担)，但如果避免与现有属性名称发生明显冲突，则不会出现可预见的问题。 Skyfield物体——尤其是行星——通常具有有限数量的属性。我经常编写简短的脚
oracle - 是不是 "safe"是为JDK7平台开发的？
我们有一个(假设)将在 1-2 年内完成的项目。到那时，JDK7(希望还有 Java7 JCP 规范)应该准备就绪。但是，我想知道，甲骨文做出“愚蠢”决定的“危险”有多大，这会使 JDK7 成为一个
python - 是不是 "Python-esque"将所有函数包装在一个类中？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 6 年前。 Improv
windows - 我怎么知道 CPU 是不是 Haswell
要知道，haswell是英特尔作为Ivy Bridge微架构的“第四代核心”继承者而开发的一种处理器微架构的代号。 1英特尔正式发布了基于这种微架构的CPU... More 但是，我想知道如何通过在
properties - 修改 setter 参数 - 是不是 hack ？
修改 setter 参数是否正常？假设我们有 setString 方法。我们真的想保留字符串的修剪形式。所以带有尾随空格的字符串是无效的，但我们不想抛出异常。最好的解决办法是什么？修剪 setter
java - 是不是 protected 应该只能由 Java 中的子类访问？
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。去年关闭。 Improve this
kotlin - 为什么这段代码不能运行，是不是 Kotlin 的 bug？
我写了一段代码，然后编译它没有错误。但是当我运行时，它会引发异常(java.lang.NoClassDefFoundError: TesKt$test$1$1)。这是语言错误吗？ private f
algorithm - 是不是: all edge weights are positive,那么任何连接所有顶点并且具有最小总重量的必须是最小生成树？
这道题是从算法导论的习题23.1-7演化而来的。原问题是: 23.1-7争论如果一个图的所有边权重都是正的，那么连接所有顶点并且具有最小总权重的边的任何子集必须是一棵树。举例说明，如果我们允许某些权
ruby - 在 Ruby 中如何知道 Proc 是不是 lambda
假设我创建了一个 lambda 实例，稍后我想查询该对象以查看它是 proc 还是 lambda。如何做到这一点？ .class() 方法不起作用。 irb(main):001:0> k = lamb
.net - 创建新 GUI 时，WPF 是不是 Windows 窗体的首选？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
.net - 创建新 GUI 时，WPF 是不是 Windows 窗体的首选？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
.net - 创建新 GUI 时，WPF 是不是 Windows 窗体的首选？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
c++ - 移植程序，好奇 int16_t & __int16 是不是 'the same'
所以我正在将我的一个程序移植到一个新的游戏机上。问题是用于编译我的 c++ 应用程序的 SDK 不支持 __int16，但它支持 int16_t。使用 int16_t 代替 __int16 是否“安全
c# - ASP.NET MVC 是不是 Url.IsLocalUrl() 的功能不正确？
我最近偷看了 Url.IsLocalUrl() 方法的实现，该方法被广泛使用并被推荐为用于防止重定向攻击的措施之一。我惊讶地发现，如果我要为我的应用程序中的 Controller 的其中一个操作提供完
angular - 将您的 RxJS 主题暴露给 "safe"是不是 "outside world"
我读了这篇好文章 Angular onPush Change Detection Strategy 在某个时候他写道: It’s an anti-pattern to expose your subj
mysql - 是不是 Memcached 和 Innodb 中的 Buffer pool 做同样的工作？
我是这样理解的: Innodb 中的缓冲池:它存储来自 Sql 表的索引和数据并缓存它以供将来查询，因此它不需要一直打扰 Mysql。 Memcached:用于存储从 Innodb 接收到的数据并对其
c++ - 是不是 vector.at(vector.size()-1) 比 vector.back() 更好，以防它是空的？
以防万一 vector 为空，(意外，异常(exception)情况) cppreference 在 vector::back() 上说: Calling back on an empty conta

首页

博学

6Ren·AI

商城

scrapy - 是不是scrapy可以直接使用Phantomjs下载页面源来渲染？