- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 rvest 下载[完整]动态扩展的[holdings]表,但收到未知字段名称
错误。
s <- html_session("http://innovatoretfs.com/etf/?ticker=ffty")
f <- html_form(s)[[1]]
#the following line fails:
f.new <- set_values(f, `__EVENTTARGET` = "ctl00$BodyPlaceHolder$ViewHoldingsLinkButton")
##subsequent lines are not tested##
doc <- submit_form(s, f.new)
tabs <- xml_find_all(doc, "//table")
holdings <- html_table(tabs, fill = T, trim = T)[[5]]
我不太擅长 HTML/HTTP,但从我可以追踪的情况来看,在我看来,要扩展表格需要使用这个新字段值集回发表单
检查set_values
函数后,它似乎只允许为现有字段赋值。
有什么方法可以向 rvest
下的表单添加新字段吗?如果没有,有人知道我可以使用另一个软件包来获得此功能吗?
[编辑]非常明确地表明我需要动态扩展表的完整版本并添加预期的后续表提取代码
最佳答案
令人厌恶,但有效可能会被清理,但会向项目提交问题以正确修复 add_values 类型功能
getInnovatorHoldings <- function() {
s <- html_session("http://innovatoretfs.com/etf/?ticker=ffty")
f <- html_form(s)[[1]]
f.new <- add_values(f,
`__EVENTTARGET` = "ctl00$BodyPlaceHolder$ViewHoldingsLinkButton",
`__EVENTARGUMENT` = "",
`submit` = NULL)
s <- submit_form(s, f.new, "submit")
doc <- read_html(s)
tabs <- xml_find_all(doc, "//table")
holdings <- html_table(tabs, fill = T, trim = T)[[5]]
return(holdings)
}
add_values <- function(form, ...) {
new_values <- list(...)
no_match <- which(!names(new_values) %in% names(form$fields))
for (n in no_match) {
if (names(new_values[n]) == "submit") {
form$fields[[names(new_values[n])]] <- new_input(name = names(new_values[n]), type = "submit", value = NULL)
} else {
form$fields[[names(new_values[n])]] <- new_input(name = names(new_values[n]), type = "hidden", value = new_values[n][[1]])
}
}
return(form)
}
new_input <- function(name, type, value, checked = NULL, disabled = NULL, readonly = NULL, required = F) {
return(
structure(
list(name = name,
type = type,
value = value,
checked = checked,
disabled = disabled,
readonly = readonly,
required = required
),
class = "input"
)
)
}
关于r - 使用 rvest 添加新字段到表单,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51352697/
我想提取下面页面中的表格 https://www.mcxindia.com/market-data/spot-market-price 我已经尝试过 rvest 和 RCurl,但在这两种情况下,下载
我不确定如何描述问题,因此我将直接进入示例。 我有一个 HTML 文档( html_doc ),如下所示: A X Y B
我正试图在比赛列表中抓取足球运动员效力的俱乐部(例如,在 http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler
我正在尝试从需要提交表单的网站中抓取结果,为此我使用 rvest 包。 运行以下命令后代码失败: require("rvest") require(dplyr) require(XML) BasicU
html_text() 方法(来自 R Package rvest)连接节点的文本和它的所有子节点。我想提取仅父亲的文本。 对于以下示例,html_text() 给出HELLO GOODBYE。 我只
我正在尝试从需要提交表单的网站中抓取结果,为此我使用 rvest 包。 运行以下命令后代码失败: require("rvest") require(dplyr) require(XML) BasicU
我正在尝试抓取 irregular table来自维基百科,使用 rvest。该表具有跨多行的单元格。 documentation for html_table 明确指出这是一个限制。我只是想知道是否
我的情况:我有一个很长(2 万行)的 URL 列表,我需要从中抓取特定数据元素以进行分析。出于本示例的目的,我正在寻找一个名为“sol-num”的特定字段,它是招标编号。使用以下函数,我可以获取 Fe
我正在尝试通过 URL 列表循环抓取一些 IMDB 数据。不幸的是,我的输出并不完全是我所希望的,更不用说将它存储在数据帧中了。 我得到的网址是 library(rvest) topmovies %
我正在使用 RVest 抓取博客文本,并且正在努力找出一种排除特定节点的简单方法。下面拉取文本: AllandSundry_test % html_node("#contentmiddle") %>%
我一直在尝试从这个网址使用inf“rvest”包抓取股票市场:http://finans.mynet.com/borsa/canliborsa/#A这需要注册。我创建了虚拟帐户供您尝试。下面的用户名和
我正在对这个网站进行网络抓取: http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=p
在这个问题上花了很多时间并查看了可用的答案之后,我想继续提出一个新问题来解决我使用 R 和 rvest 进行网络抓取的问题。我已尝试完全列出问题以尽量减少问题 问题我正在尝试从 session 网页中
我正在尝试抓取下面列出的以下网站。我尝试通过使用 rvest 和下面的代码来做到这一点。 我的尝试是尝试复制我在 Google Chrome 中为下载按钮找到的 PUT。我不确定我做错了什么。我的 r
我已经成功地抓取了我想要的数据(在 SO 用户的帮助下),但是我遗漏了每个抓取表中的数据代表谁的关键。所以我试图使用 mutate 添加一个名为 player 的字段,它与 player[[j]] 相
我的目标是使用 library(tm)一个相当大的 word 文档上的工具包。 word 文档有合理的排版,所以我们有 h1对于主要部分,一些 h2和 h3副标题。我想比较每个部分并对其进行文本挖掘(
我正在尝试使用 rvest 包抓取在议会中举行的部分演讲。使用 css 选择器或 chrome 的检查器工具为我提供了一个选择器,但是我无法检索预期的(任何)数据。据我所知,该站点也不是基于 java
我正在尝试下载 png通过 R 来自安全站点的图像。 为了访问我使用的安全站点 Rvest效果很好。 到目前为止,我已经提取了 png 的 URL。图片。 如何使用 rvest 下载此链接的图像? r
我正在尝试写一个爬虫来下载一些信息,类似于this Stack Overflow post.答案对于创建填写的表单很有用,但是当提交按钮不是表单的一部分时,我正在努力寻找一种提交表单的方法。这是一个例
我正面临网络抓取问题。我打算在 tripadvisor 上收集一些评论。我想使用 rvest 并获得所有语言的评论。来自 this questions我知道一种可能的方法是在 url 的末尾使用 ?f
我是一名优秀的程序员,十分优秀!