- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试抓取此网页:https://www.mustardbet.com/sports/events/302698
由于网页似乎是动态渲染的,因此我遵循本教程: https://www.datacamp.com/community/tutorials/scraping-javascript-generated-data-with-r#gs.dZEqev8
按照教程的建议,我使用以下代码保存一个名为“scrape_mustard.js”的文件:
// scrape_mustard.js
var webPage = require('webpage');
var page = webPage.create();
var fs = require('fs');
var path = 'mustard.html'
page.open('https://www.mustardbet.com/sports/events/302698', function (status) {
var content = page.content;
fs.write(path,content,'w')
phantom.exit();
});
然后我表演
system("./phantomjs scrape_mustard.js")
但我收到错误:
ReferenceError: Can't find variable: Set
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1 in t
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1 in t
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1 in t
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1 in t
https://www.mustardbet.com/assets/js/index.dfd873fb.js:1
现在,当我将“https://www.mustardbet.com/assets/js/index.dfd873fb.js ”粘贴到浏览器中时,我可以看到它是 javascript,并且我可能需要(1) 将其保存为文件,或者(2) 将其包含在 scrape_mustard.js 中。
但是,如果(1),我不知道如何引用该新文件,如果(2),我不知道如何正确定义所有 JavaScript 以便可以使用它。
我是 javascript 的新手,但也许这个问题并不太难?
感谢您的帮助!
最佳答案
我能够使用 js 模块 puppeteer.js
进行抓取。
下载node.js
here 。 node.js
附带 npm
,这让您在安装模块时变得更轻松。您需要使用 npm
安装 puppeteer。
在 RStudio 中,安装 puppeteer.js
时请确保您位于工作目录中。安装 node.js
后,执行 ( source ):
system("npm i puppeteer")
scrape_mustard.js
:
// load modules
const fs = require("fs");
const puppeteer = require("puppeteer");
// page url
url = "https://www.mustardbet.com/sports/events/302698";
scrape = async() => {
const browser = await puppeteer.launch({headless: false}); // open browser
const page = await browser.newPage(); // open new page
await page.goto(url, {waitUntil: "networkidle2", timeout: 0}); // go to page
await page.waitFor(5000); // give it time to load all the javascript rendered content
const html = await page.content(); // copy page contents
browser.close(); // close chromium
return html // return html object
};
scrape().then((value) => {
fs.writeFileSync("./stackoverflow/page.html", value) // write the object being returned by scrape()
});
要在R
中运行scrape_mustard.js
:
library(magrittr)
system("node ./stackoverflow/scrape_mustard.js")
html <- xml2::read_html("./stackoverflow/page.html")
oddsMajor <- html %>%
rvest::html_nodes(".odds-major")
betNames <- html %>%
rvest::html_nodes("h3")
控制台输出:
{xml_nodeset (60)}
[1] <span class="odds-major">2</span>
[2] <span class="odds-major">14</span>
[3] <span class="odds-major">15</span>
[4] <span class="odds-major">16</span>
[5] <span class="odds-major">17</span>
[6] <span class="odds-major">23</span>
[7] <span class="odds-major">25</span>
[8] <span class="odds-major">32</span>
[9] <span class="odds-major">33</span>
[10] <span class="odds-major">39</span>
[11] <span class="odds-major">47</span>
[12] <span class="odds-major">54</span>
[13] <span class="odds-major">55</span>
[14] <span class="odds-major">58</span>
[15] <span class="odds-major">58</span>
[16] <span class="odds-major">64</span>
[17] <span class="odds-major">73</span>
[18] <span class="odds-major">73</span>
[19] <span class="odds-major">92</span>
[20] <span class="odds-major">98</span>
...
> betNames
{xml_nodeset (60)}
[1] <h3>Charles Howell III</h3>\n
[2] <h3>Brian Harman</h3>\n
[3] <h3>Austin Cook</h3>\n
[4] <h3>J.J. Spaun</h3>\n
[5] <h3>Webb Simpson</h3>\n
[6] <h3>Cameron Champ</h3>\n
[7] <h3>Peter Uihlein</h3>\n
[8] <h3>Seung-Jae Im</h3>\n
[9] <h3>Nick Watney</h3>\n
[10] <h3>Graeme McDowell</h3>\n
[11] <h3>Zach Johnson</h3>\n
[12] <h3>Lucas Glover</h3>\n
[13] <h3>Corey Conners</h3>\n
[14] <h3>Luke List</h3>\n
[15] <h3>David Hearn</h3>\n
[16] <h3>Adam Schenk</h3>\n
[17] <h3>Kevin Kisner</h3>\n
[18] <h3>Brian Gay</h3>\n
[19] <h3>Patton Kizzire</h3>\n
[20] <h3>Brice Garnett</h3>\n
...
我确信可以使用 phantomjs
来完成,但我发现 puppeteer
更容易抓取 javascript 渲染的网页。另请记住 phantomjs
is no longer being developed .
关于javascript - 抓取引用 R 中外部 javascript 脚本的 Javascript 渲染网页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53339598/
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: template pass by value or const reference or…? 以下对于将函数
我用相同的参数列表重载了一个运算符两次。但返回类型不同: T& operator()(par_list){blablabla} const T& operator()(par_list){bla
假设我有实现接口(interface) I 的 Activity A。我的 ViewModel 类 (VM) 持有对实现接口(interface) I 的对象的引用: class A extends
PHP 如何解释 &$this ?为什么允许? 我遇到了以下问题,这看起来像是 PHP 7.1 和 7.2 中的错误。它与 &$this 引用和跨命名空间调用以及 call_user_func_arr
谁能解释一下下面“&”的作用: class TEST { } $abc =& new TEST(); 我知道这是引用。但是有人可以说明我为什么以及什么时候需要这样的东西吗?或者给我指向一个对此有很好解
引用变量是一个别名,也就是说,它是某个已存在变量的另一个名字。一旦把引用初始化为某个变量,就可以使用该引用名称或变量名称来指向变量。 C++ 引用 vs 指针 引用很容易与指针混淆,它们之间有三
目录 引言 背景 结论 引言 我选择写C++中的引用是因为我感觉大多数人误解了引用。而我之所以有这个感受是因为我主持过很多C++的面试,并且我很少
Perl 中的引用是指一个标量类型可以指向变量、数组、哈希表(也叫关联数组)甚至函数,可以应用在程序的任何地方 创建引用 定义变量的时候,在变量名前面加个 \,就得到了这个变量的一个引用 $sc
我编写了一个将从主脚本加载的 Perl 模块。该模块使用在主脚本中定义的子程序(我不是维护者)。 对于主脚本中的一个子例程,需要扩展,但我不想修补主脚本。相反,我想覆盖我的模块中的函数并保存对原始子例
我花了几个小时试图掌握 F# Quotations,但我遇到了一些障碍。我的要求是从可区分的联合类型中取出简单的函数(只是整数、+、-、/、*)并生成一个表达式树,最终将用于生成 C 代码。我知道使用
很多时候,问题(尤其是那些标记为 regex 的问题)询问验证密码的方法。似乎用户通常会寻求密码验证方法,包括确保密码包含特定字符、匹配特定模式和/或遵守最少字符数。这篇文章旨在帮助用户找到合适的密码
我想通过 MIN 函数内的地址(例如,C800)引用包含文本的最后一个单元格。你能帮忙吗? Sub Set_Formula() ' ----------------------------- Dim
使用常规的 for 循环,我可以做类似的事情: for (let i = 0; i < objects.length; i++) { delete objects[i]; } 常规的 for-
在 Cucumber 中,您定义了定义 BDD 语法的步骤;例如,您的测试可能有: When I navigate to step 3 然后你可以定义一个步骤: When /^I navigate t
这是什么UnaryExpression的目的,以及应该怎样使用? 最佳答案 它需要一个 Expression对象并用另一个 Expression 包裹它.例如,如果您有一个用于 lambda 的表达式
给出以下内容 $("#identifier div:first, #idetifier2").fadeOut(300,function() { // I need to reference jus
我不知道我要找的东西的正确术语,但我要找的是一个完整的引用,可以放在双引号之间的语句,比如 *, node()、@* 以及所有列出的 here加上任何其他存在的。 我链接到的答案提供了一些细节,但还
This question's answers are a community effort。编辑现有答案以改善此职位。它当前不接受新的答案或互动。 这是什么? 这是常见问答的集合。这也是一个社区Wi
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。 想改善这个问题吗?更新问题,以便将其作为on-topic
考虑下一个代码: fn get_ref(slice: &'a Vec, f: fn(&'a Vec) -> R) -> R where R: 'a, { f(slice) } fn m
我是一名优秀的程序员,十分优秀!