python - Scrapy-splash 不渲染来自某个 react 驱动站点的动态内容-6ren

python - Scrapy-splash 不渲染来自某个 react 驱动站点的动态内容

转载作者：行者123 更新时间：2023-11-30 22:11:15

24

4

我很好奇是否有任何splash可以从这个页面获取动态的工作内容 - https://nreca.csod.com/ux/ats/careersite/4/home?c=nreca#/requisition/182

为了让splash 接收URL 片段，您必须使用SplashRequest。为了让它处理 JS cookie，我必须使用 lua 脚本。下面是我的环境、脚本和 scrapy 代码。

该网站似乎分 3 个“步骤”即可呈现:

基本上是带有脚本标记的空 html
上面的脚本运行并生成网站页眉/页脚，并检索另一个脚本
#2 中的脚本运行并与 JS 设置 cookie 结合检索动态内容(我想要抓取的作业)

如果您对 URL(即在 postman 中)执行简单的 GET，您将仅看到步骤 1 的内容。对于splash，我只得到第2步的结果(页眉/页脚)。我确实在response.cookiejar中看到了JS cookies

我无法渲染动态作业内容(步骤 3)。

环境:

scrapy 1.3.3scrapy 飞溅 0.72 settings

    script = """
        function main(splash)
          splash:init_cookies(splash.args.cookies)
          assert(splash:go{
            splash.args.url,
            headers=splash.args.headers,
            http_method=splash.args.http_method,
            body=splash.args.body,
            })
          assert(splash:wait(15))

          local entries = splash:history()
          local last_response = entries[#entries].response
          return {
            url = splash:url(),
            headers = last_response.headers,
            http_status = last_response.status,
            cookies = splash:get_cookies(),
            html = splash:html(),
          }
        end
    """

    return SplashRequest('https://nreca.csod.com/ux/ats/careersite/4/home?c=nreca#/requisition/182', 
        self.parse_detail, 
        endpoint='execute',
        cache_args=['lua_source'],
        args={
            'lua_source': script,
            'wait': 10,
            'headers': {'User-Agent': 'Mozilla/5.0'}
        },
    )

最佳答案

这一定是在隐私浏览模式下默认运行启动时出现的问题(特别是不允许访问 window.localStorage)。这通常会导致 javascript 发生异常。尝试使用 --disable-private-mode 选项启动启动或引用此文档条目:http://splash.readthedocs.io/en/stable/faq.html#disable-private-mode .

关于python - Scrapy-splash 不渲染来自某个 react 驱动站点的动态内容，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51483008/

24

4

0

文章推荐： c# - 佳能 EDSDK 命令 TakePicture 在焦点错误后阻止所有内容

文章推荐： python - Python 中的 3D BPP 算法

文章推荐： python - 将 Dask 标量转换为整数值(或将其保存到文本文件)

OpenGL:如何确定 3D(渲染)点是否被其前面的其他 3D(渲染)图元遮挡？
在我的 OpenGL 程序中，我按顺序执行以下操作: // Drawing filled polyhedrons // Drawing points using GL_POINTS // Displa
ruby-on-rails-3 - 渲染@object 和 locals vs 渲染 :partial
我想传递一个包含原始页面的局部变量，这个变量只包含一个带有值的符号。当我使用此代码时，它运行良好，可以在部分中访问 origin 变量: render :partial => "products",
JavaScript 渲染
为什么这个 HTML/脚本(来自“JavaScript Ninja 的 secret ”)不渲染？ http://jsfiddle.net/BCL54/
Django 渲染 anchor
我想在阅读完 View 后返回到特定的网页位置(跳转到页内 anchor )。换句话说，在 views.py 中，我想做类似的事情: context={'form':my_form} return r
WPF PathGeometry 渲染
我有一个包含单条折线的 PathGeometry，并以固定的间隔向该线添加一个新点(以绘制波形)。使用 Perforator 工具时，我可以看到每次向直线添加一个点时，WPF 都会将整个 PathGe
JavaScript 渲染 block
尝试了解如何消除或最小化网站上不同 JavaScript 库的渲染延迟。例如，如果我想加载来自许多社交网络的“即时”关注按钮，它们似乎会相互阻止渲染，并且您会收到令人不快的弹出窗口。 (func
渲染 3D 表面
我有以 xyz 点格式表示 3D 表面(即地震断层平面)的数据。我想创建这些表面的 3D 表示。我使用 rgl 和 akima 取得了一些成功，但是它无法真正处理可能会自行折叠或在同一 x,y 点具有
java - 渲染/更新线程同步
我正在用 Libgdx 编写一个小游戏。我有一个 Render[OpenGL] 线程，它不断对所有对象调用 render() 和一个更新线程不断对所有对象调用 update(double delta
R:渲染 xtable
我有一个 .Rmd 文件包含: ```{r, echo=FALSE, message=FALSE, results='asis'} library(xtable) print(xtable(group
javascript - HTML5 渲染
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
ios - 渲染 MTIImage
请不要评判我，我只是在学习 Swift。最近我安装了 MetalPetal 框架，并按照说明操作: https://github.com/MetalPetal/MetalPetal#example-
javascript - Canvas 渲染
如果您尝试渲染 Canvas 宽度和高度之外的图像，计算机是否仍会尝试渲染它并使用资源来尝试渲染它？我只是想找出在尝试渲染图像之前检查图像是否在 Canvas 内是否更好。最佳答案我相信它仍然在无
html - 渲染 Safari
我在 safari 中渲染时遇到问题。在 firefox、chrome 和 IE 上。如下图所示: input.searchbox{-webkit-border-radius:10px;-moz-b
通过远程桌面进行 Java 渲染
我正在尝试通过远程桌面在 Windows7 下运行我在 RHEL7 服务器中制作的 java 程序。服务器中的所有java程序都无法通过远程桌面呈现。如果我在服务器位置访问服务器本身，它们看起来没问
PHP - LaTeX 渲染
我正处于一个新项目的设计阶段，该项目将采用数据集并将其加载到文档中，然后围绕模板呈现文档。呈现的文件可以是 CSV 数据集、PDF 营销信函、电子邮件……很多东西。数据不会是数学方程式，我只是在寻找一
reactjs - 渲染 React 嵌套组件
有没有办法在不同的 div 下渲染 React 组件的子组件？ ... ... ... ... ...
Plotly:渲染 3D 网格椭球体时的视觉伪像
使用以下代码: import numpy as np from plotly.offline import iplot, init_notebook_mode import plotly.graph_
Meteor.js onRendered & 渲染
截至最近， meteor 的所有文档都指出 onRendered是一种在模板完成渲染时获取回调的新方法。和 rendered只是为了向后兼容。但是，这似乎对我不起作用。 onRendered永远不会
symfony2 Twig 渲染，抛出异常
所以在我的基本模板中，我有:{% render "EcsCrmBundle:Module:checkClock" %} 然后我创建了 ModuleController.php ... getDoctr
javascript - 阻止 Mathjax 渲染
我正在使用 vue-mathjax 来编译我的 vue 项目中的数学方程。它正在编译第一个括号 () 之间的文本。我想防止编译括号内的字符串。在文档中我发现，对于$符号，如果我们想逃避编译，我们需要使

首页

博学

6Ren·AI

商城

python - Scrapy-splash 不渲染来自某个 react 驱动站点的动态内容