gpt4 book ai didi

使用 R 中的 Rvest 从表中删除多个标题行

转载 作者:行者123 更新时间:2023-12-04 08:29:25 25 4
gpt4 key购买 nike

我正在尝试从 Sports Reference 中抓取一张 table :

cu_url <- "https://www.sports-reference.com/cbb/schools/creighton/"
我能够像这样将表格放入数据框中:
cu_html <- read_html(cu_url)
cu_table <- html_nodes(cu_html, "table")
cu_info <- data.frame(html_table(cu_table))
colnames(cu_info) <- cu_info[1,]
cu_info <- cu_info[-1,]
但是,我注意到标题行在整个数据中重复。例如,第 22 行再次将标题显示为一行。有没有有效的方法来消除这些?在 HTML 中,标题行都有一个表行 () 类“thead”,所以我想知道我是否可以要求 rvest 忽略这些但我在尝试使用时失败了! =。
欣赏任何想法。如果我需要删除实际的标题以使其正常工作,我会但更愿意保留那个标题并删除重复。

最佳答案

您只能保留 Rk 中只有数字的行柱子。

library(rvest)
library(dplyr)

cu_url %>%
read_html %>%
html_nodes('table') %>%
html_table() %>%
.[[1]] %>%
setNames(make.unique(unlist(.[1,]))) %>%
slice(-1L) %>%
filter(grepl('^\\d+$', Rk)) -> result

result

关于使用 R 中的 Rvest 从表中删除多个标题行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65102352/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com