- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在使用 rvest 的 html_table 从下面的网站读取一个包含两列的索引表。两列都包含我想要保留的前导零实例。因此,我希望这些列具有类(Class)特征。我使用以下代码:
library(rvest)
library(data.table)
df <- list()
for (j in 1:25) {
url <- paste('http://unstats.un.org/unsd/cr/registry/regso.asp?Ci=70&Lg=1&Co=&T=0&p=',
j, '&prn=yes', sep='')
webpage <- read_html(url)
table <- html_nodes(webpage, 'table')
df[[j]] <- html_table(table, header=TRUE)[[1]]
df[[j]] <- df[[j]][,c(1:2) ]
}
ISIC4.NACE2 <- rbindlist(df)
但是 str(df[[1]]) 返回
'data.frame': 40 obs. of 2 variables:
$ ISIC Rev.4: chr "01" "011" "0111" "0112" ...
$ NACE Rev.2: num 1 1.1 1.11 1.12 1.13 1.14 1.15 1.16 1.19 1.2 ...
似乎 html_table 函数将第一列解释为字符,将第二列解释为数字,从而截断了后者中的前导零。有没有办法使用 html_table 指定列类?
最佳答案
col_classes
应该是 NULL
或 list
。如果是 list
那么它应该是这样的形式:
list(`COL#`=`class`, ...)
例如:
list(`1`='character', `3`='integer', `7`='logical')
您必须将以下所有内容提供给您正在使用 rvest
的 session ,因为它正在替换这些函数的 rvest
S3 定义:
我将您代码中的 html_table
行更改为:
df[[j]] <- html_table(table, header=TRUE, col_classes=list(`2`='character'))[[1]]
现在将以下内容作为 str
输出:
'data.frame': 40 obs. of 2 variables:
$ ISIC Rev.4: int 1 11 111 112 113 114 115 116 119 12 ...
$ NACE Rev.2: chr "01" "01.1" "01.11" "01.12" ...
------ 来源下面的所有内容 ------
html_table <- function(x, header = NA, trim = TRUE, fill = FALSE, dec = ".", col_classes = NULL) {
UseMethod("html_table")
}
' @export
html_table.xml_document <- function(x, header = NA, trim = TRUE, fill = FALSE,
dec = ".", col_classes = NULL) {
tables <- xml2::xml_find_all(x, ".//table")
lapply(tables, html_table, header = header, trim = trim, fill = fill, dec = dec, col_classes)
}
html_table.xml_nodeset <- function(x, header = NA, trim = TRUE, fill = FALSE,
dec = ".", col_classes = NULL) {
# FIXME: guess useful names
lapply(x, html_table, header = header, trim = trim, fill = fill, dec = dec, col_classes)
}
html_table.xml_node <- function(x, header = NA, trim = TRUE,
fill = FALSE, dec = ".",
col_classes=NULL) {
stopifnot(html_name(x) == "table")
# Throw error if any rowspan/colspan present
rows <- html_nodes(x, "tr")
n <- length(rows)
cells <- lapply(rows, "html_nodes", xpath = ".//td|.//th")
ncols <- lapply(cells, html_attr, "colspan", default = "1")
ncols <- lapply(ncols, as.integer)
nrows <- lapply(cells, html_attr, "rowspan", default = "1")
nrows <- lapply(nrows, as.integer)
p <- unique(vapply(ncols, sum, integer(1)))
maxp <- max(p)
if (length(p) > 1 & maxp * n != sum(unlist(nrows)) &
maxp * n != sum(unlist(ncols))) {
# then malformed table is not parsable by smart filling solution
if (!fill) { # fill must then be specified to allow filling with NAs
stop("Table has inconsistent number of columns. ",
"Do you want fill = TRUE?", call. = FALSE)
}
}
values <- lapply(cells, html_text, trim = trim)
out <- matrix(NA_character_, nrow = n, ncol = maxp)
# fill colspans right with repetition
for (i in seq_len(n)) {
row <- values[[i]]
ncol <- ncols[[i]]
col <- 1
for (j in seq_len(length(ncol))) {
out[i, col:(col+ncol[j]-1)] <- row[[j]]
col <- col + ncol[j]
}
}
# fill rowspans down with repetition
for (i in seq_len(maxp)) {
for (j in seq_len(n)) {
rowspan <- nrows[[j]][i]; colspan <- ncols[[j]][i]
if (!is.na(rowspan) & (rowspan > 1)) {
if (!is.na(colspan) & (colspan > 1)) {
# special case of colspan and rowspan in same cell
nrows[[j]] <- c(head(nrows[[j]], i),
rep(rowspan, colspan-1),
tail(nrows[[j]], length(rowspan)-(i+1)))
rowspan <- nrows[[j]][i]
}
for (k in seq_len(rowspan - 1)) {
l <- head(out[j+k, ], i-1)
r <- tail(out[j+k, ], maxp-i+1)
out[j + k, ] <- head(c(l, out[j, i], r), maxp)
}
}
}
}
if (is.na(header)) {
header <- all(html_name(cells[[1]]) == "th")
}
if (header) {
col_names <- out[1, , drop = FALSE]
out <- out[-1, , drop = FALSE]
} else {
col_names <- paste0("X", seq_len(ncol(out)))
}
# Convert matrix to list to data frame
df <- lapply(seq_len(maxp), function(i) {
if (!is.null(col_classes) & (i %in% names(col_classes))) {
as(out[, i], col_classes[[as.character(i)]])
} else {
utils::type.convert(out[, i], as.is = TRUE, dec = dec)
}
})
names(df) <- col_names
class(df) <- "data.frame"
attr(df, "row.names") <- .set_row_names(length(df[[1]]))
if (length(unique(col_names)) < length(col_names)) {
warning('At least two columns have the same name')
}
df
}
关于html - 在 html_table(rvest) 中指定列类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37293830/
我想提取下面页面中的表格 https://www.mcxindia.com/market-data/spot-market-price 我已经尝试过 rvest 和 RCurl,但在这两种情况下,下载
我不确定如何描述问题,因此我将直接进入示例。 我有一个 HTML 文档( html_doc ),如下所示: A X Y B
我正试图在比赛列表中抓取足球运动员效力的俱乐部(例如,在 http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler
我正在尝试从需要提交表单的网站中抓取结果,为此我使用 rvest 包。 运行以下命令后代码失败: require("rvest") require(dplyr) require(XML) BasicU
html_text() 方法(来自 R Package rvest)连接节点的文本和它的所有子节点。我想提取仅父亲的文本。 对于以下示例,html_text() 给出HELLO GOODBYE。 我只
我正在尝试从需要提交表单的网站中抓取结果,为此我使用 rvest 包。 运行以下命令后代码失败: require("rvest") require(dplyr) require(XML) BasicU
我正在尝试抓取 irregular table来自维基百科,使用 rvest。该表具有跨多行的单元格。 documentation for html_table 明确指出这是一个限制。我只是想知道是否
我的情况:我有一个很长(2 万行)的 URL 列表,我需要从中抓取特定数据元素以进行分析。出于本示例的目的,我正在寻找一个名为“sol-num”的特定字段,它是招标编号。使用以下函数,我可以获取 Fe
我正在尝试通过 URL 列表循环抓取一些 IMDB 数据。不幸的是,我的输出并不完全是我所希望的,更不用说将它存储在数据帧中了。 我得到的网址是 library(rvest) topmovies %
我正在使用 RVest 抓取博客文本,并且正在努力找出一种排除特定节点的简单方法。下面拉取文本: AllandSundry_test % html_node("#contentmiddle") %>%
我一直在尝试从这个网址使用inf“rvest”包抓取股票市场:http://finans.mynet.com/borsa/canliborsa/#A这需要注册。我创建了虚拟帐户供您尝试。下面的用户名和
我正在对这个网站进行网络抓取: http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=p
在这个问题上花了很多时间并查看了可用的答案之后,我想继续提出一个新问题来解决我使用 R 和 rvest 进行网络抓取的问题。我已尝试完全列出问题以尽量减少问题 问题我正在尝试从 session 网页中
我正在尝试抓取下面列出的以下网站。我尝试通过使用 rvest 和下面的代码来做到这一点。 我的尝试是尝试复制我在 Google Chrome 中为下载按钮找到的 PUT。我不确定我做错了什么。我的 r
我已经成功地抓取了我想要的数据(在 SO 用户的帮助下),但是我遗漏了每个抓取表中的数据代表谁的关键。所以我试图使用 mutate 添加一个名为 player 的字段,它与 player[[j]] 相
我的目标是使用 library(tm)一个相当大的 word 文档上的工具包。 word 文档有合理的排版,所以我们有 h1对于主要部分,一些 h2和 h3副标题。我想比较每个部分并对其进行文本挖掘(
我正在尝试使用 rvest 包抓取在议会中举行的部分演讲。使用 css 选择器或 chrome 的检查器工具为我提供了一个选择器,但是我无法检索预期的(任何)数据。据我所知,该站点也不是基于 java
我正在尝试下载 png通过 R 来自安全站点的图像。 为了访问我使用的安全站点 Rvest效果很好。 到目前为止,我已经提取了 png 的 URL。图片。 如何使用 rvest 下载此链接的图像? r
我正在尝试写一个爬虫来下载一些信息,类似于this Stack Overflow post.答案对于创建填写的表单很有用,但是当提交按钮不是表单的一部分时,我正在努力寻找一种提交表单的方法。这是一个例
我正面临网络抓取问题。我打算在 tripadvisor 上收集一些评论。我想使用 rvest 并获得所有语言的评论。来自 this questions我知道一种可能的方法是在 url 的末尾使用 ?f
我是一名优秀的程序员,十分优秀!