- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试从 this site 创建一个包含颜色 ID、描述和日期的数据框,它需要通过下拉菜单输入日期和月份,并返回,我认为,动态 JS 生成的页面。我是编码新手,认为这将是一个有趣的玩具项目。我想使用 RSelenium 自动进行下拉选择,并使用 rvest 抓取生成的内容。我希望的数据帧结构如下所示:
description, date, meta
"paragraph about birthday", Jun 01, "DAFFODIL PANTONE 17-1512 POWERFUL KNOWING EXPRESSIVE"
我尝试首先使用 for 循环在一天中遍历一年中的每个月,然后逐步获取每个月的每一天。
我坚持只是让循环每个月迭代一次,然后获取内容。我可以先在这部分任务上使用一些概念性的帮助,并感谢任何见解!
library(RSelenium)
library(rvest)
library(tidyverse)
library(xml2)
## first run: docker run -d -p 4445:4444 selenium/standalone-chrome
## open a new connection to Chrome
remDr <- RSelenium::remoteDriver(remoteServerAddr = "localhost",
port = 4445L,
browserName = "chrome")
remDr$open()
remDr$navigate("https://www.pantone.com/pages/iphone/iphone_colorstrology.html#___1__") #Entering our URL gets the browser to navigate to the page
remDr$screenshot(display = TRUE)
#### create list of month/days
month_day<- read_html(remDr$getPageSource()[[1]])
page_i <- month_day %>%
html_nodes(".list") %>%
html_children() %>%
html_text()
months <- page_i[1:12]
months <- (paste("'", months,"'", sep=''))
days <- page_i[13:43]
days <- as.numeric(days)
## create an object for month xpath elements
for (m in months){
elements <- paste0("//option[contains(text(),",months,")]")
}
## attempt at loop
total <- data.frame()
for (e in elements){
remDr$navigate("https://www.pantone.com/pages/iphone/iphone_colorstrology.html#___1__")
print(e)
month <- remDr$findElement(using = 'xpath', e)
month$clickElement()
day <- remDr$findElement(using = 'xpath', "//select[@id='lstDay']//option[5]") ## arbitrarily picking the 5th of each month
day$clickElement()
submit <- remDr$findElement(using = 'xpath', "/html[1]/body[1]/form[1]/div[1]/a[1]")
submit$clickElement()
html <- read_html(remDr$getPageSource()[[1]])
description <- html %>% html_nodes(xpath = "//tr//tr[2]//td[1]") %>% html_text() %>% gsub("^\\s+|\\s+$", "", .)
meta <- html %>% html_nodes(xpath = "//td[@id='tdBg']") %>% html_text() %>% gsub("^\\s+|\\s+$", "", .)
date <- html %>% html_nodes(xpath = "//td[@id='bgHeaderDate']//div") %>% html_text() %>% gsub("^\\s+|\\s+$", "", .)
df <- data.frame(cbind(description,meta,date))
total <- rbind(total, df)
}
没有收到任何错误,但每次的结果都出乎意料。它会在单个月/日组合上重复,例如 Jan05 * 12 次或 jan05 * 3 次、Apr 05 *3 次等。
最佳答案
我会回来更新这个以采纳我的建议。导航到该页面,然后使用 F12 在浏览器(例如 Chrome)中打开开发工具,然后转到网络选项卡。然后,选择月份和日期并点击立即查看。您会看到流量出现在网络选项卡中。该页面发出 POST xhr 请求以获取您在单击 View 图标后看到的内容。
POST 请求本身非常简单,并且有一个由您选择的月份和日期组成的正文(表单):
因此,您可以模仿该 POST 请求,然后解析响应。您提到的日期的示例可能是:
library(rvest)
body <- list('month' = 6,'day' = 1)
url <- 'https://www.pantone.com/pages/iphone/iphone_colorstrology_results.aspx'
page <- html_session(url) %>%
rvest:::request_POST(url, body = body, encode = "form") %>%
read_html()
date <- page %>% html_node('table table td') %>% html_text() %>%
gsub('^\\s+|\\s+$|[\r\n\t]', '', .)
description <- page %>% html_node('tr:nth-of-type(2) div') %>% html_text() %>%
gsub('^\\s+|\\s+$|[\r\n\t]', '', .)
meta <- page %>% html_nodes('#tdBg span') %>% html_text()
df <- data.frame(date, description, meta)
现在,这就是我稍后要重新访问的内容,上面的内容可以转换为一个函数,该函数返回一个列表或 df,可以组合成一个最终的数据帧。您可以提前生成每个主体并将其作为参数传递给函数。我会考虑使用 Session 对象 http Session,以提高重新使用当前连接的效率。月份和日期可以在循环/嵌套循环期间在表单主体中更新 - 取决于它们的生成方式。我是 R 的新手,知道它没有字典,但也许它有命名列表或类似的列表,您可以借此从原始页面中抓取月:可能的值关联以用于循环。我欢迎向更有经验的 R 人员学习如何实现上述目标——我的 R 知识存在一些差距,无法完成今天要解决的问题。有人可能会按照类似的思路发布答案,这会有所帮助。
生成 POST 请求正文:
查看标准年份的下拉列表,因此您可以在嵌套的 for 循环中生成所需的 POST 正文。我使用 1,12 表示月份,并使用 lubridate 返回基于标准年份的月份中的天数:
library(lubridate)
for(i in seq(1,12)){
date <- as.Date(gsub('placeholder',i, "2019-placeholder-01"), "%Y-%m-%d")
days <- days_in_month(date)[[1]]
for(j in seq(1,days)){
body = list('month' = i,'day' = j)
# pass body to function or add to an iterable for later looping
}
}
关于javascript - 使用 RSelenium 和 rvest 抓取动态 Javascript 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57022242/
我有一个 html 格式的表单: 我需要得到 JavaScript在value input 字段执行,但只能通过表单的 submit .原因是页面是一个模板所以我不控制它(不能有
我管理的论坛是托管软件,因此我无法访问源代码,我只能向页面添加 JavaScript 来实现我需要完成的任务。 我正在尝试用超链接替换所有页面上某些文本关键字的第一个实例。我还根据国家/地区代码对这些
我正在使用 JS 打开新页面并将 HTML 代码写入其中,但是当我尝试使用 document.write() 在新页面中编写 JS 时功能不起作用。显然,一旦看到 ,主 JS 就会关闭。用于即将打开的
提问不是为了解决问题,提问是为了更好地理解系统 专家!我知道每当你将 javascript 代码输入 javascript 引擎时,它会立即由 javascript 引擎执行。由于没有看过Engi
我在一个文件夹中有两个 javascript 文件。我想将一个变量的 javascript 文件传递到另一个。我应该使用什么程序? 最佳答案 window.postMessage用于跨文档消息。使
我有一个练习,我需要输入两个输入并检查它们是否都等于一个。 如果是 console.log 正则 console.log false 我试过这样的事情: function isPositive(fir
我正在做一个Web应用程序,计划允许其他网站(客户端)在其页面上嵌入以下javascript: 我的网络应用程序位于 http://example.org 。 我不能假设客户端网站的页面有 JQue
目前我正在使用三个外部 JS 文件。 我喜欢将所有三个 JS 文件合而为一。 尽一切可能。我创建 aio.js 并在 aio.js 中 src="https://code.jquery.com/
我有例如像这样的数组: var myArray = []; var item1 = { start: '08:00', end: '09:30' } var item2 = {
所以我正在制作一个 Chrome 扩展,它使用我制作的一些 TamperMonkey 脚本。我想要一个“主”javascript 文件,您可以在其中包含并执行其他脚本。我很擅长使用以下行将其他 jav
我有 A、B html 和 A、B javascript 文件。 并且,如何将 A JavaScript 中使用的全局变量直接移动到 B JavaScript 中? 示例 JavaScript) va
我需要将以下整个代码放入名为 activate.js 的 JavaScript 中。你能告诉我怎么做吗? var int = new int({ seconds: 30, mark
我已经为我的 .net Web 应用程序创建了母版页 EXAMPLE1.Master。他们的 I 将值存储在 JavaScript 变量中。我想在另一个 JS 文件中检索该变量。 示例1.大师:-
是否有任何库可以用来转换这样的代码: function () { var a = 1; } 像这样的代码: function () { var a = 1; } 在我的浏览器中。因为我在 Gi
我收到语法缺失 ) 错误 $(document).ready(function changeText() { var p = document.getElementById('bidp
我正在制作进度条。它有一个标签。我想调整某个脚本完成的标签。在找到可能的解决方案的一些答案后,我想出了以下脚本。第一个启动并按预期工作。然而,第二个却没有。它出什么问题了?代码如下: HTML:
这里有一个很简单的问题,我简单的头脑无法回答:为什么我在外部库中加载时,下面的匿名和onload函数没有运行?我错过了一些非常非常基本的东西。 Library.js 只有一行:console.log(
我知道 javascript 是一种客户端语言,但如果实际代码中嵌入的 javascript 代码以某种方式与在控制台上运行的代码不同,我会尝试找到答案。让我用一个例子来解释它: 我想创建一个像 Mi
我如何将这个内联 javascript 更改为 Unobtrusive JavaScript? 谢谢! 感谢您的回答,但它不起作用。我的代码是: PHP js文件 document.getElem
我正在寻找将简单的 JavaScript 对象“转储”到动态生成的 JavaScript 源代码中的最优雅的方法。 目的:假设我们有 node.js 服务器生成 HTML。我们在服务器端有一个对象x。
我是一名优秀的程序员,十分优秀!