gpt4 book ai didi

html - 使用 XML 包将 html 表抓取到 R 数据帧中

转载 作者:技术小花猫 更新时间:2023-10-29 11:25:51 24 4
gpt4 key购买 nike

如何使用 XML 包抓取 html 表格?

Brazilian soccer team 上的维基百科页面为例.我想在 R 中阅读它,并将“巴西与 FIFA 认可的球队进行过的所有比赛列表”表作为数据框。我该怎么做?

最佳答案

...或更短的尝试:

library(XML)
library(RCurl)
library(rlist)
theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

选中的表格是页面上最长的表格

tables[[which.max(n.rows)]]

关于html - 使用 XML 包将 html 表抓取到 R 数据帧中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1395528/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com