gpt4 book ai didi

r - 在 R 和 rvest 中抓取多个链接的 HTML 表

转载 作者:行者123 更新时间:2023-12-02 14:30:35 25 4
gpt4 key购买 nike

这篇文章http://www.ajnr.org/content/30/7/1402.full包含四个指向 html-tables 的链接,我想用 rvest 来抓取它们。

在 css 选择器的帮助下:

"#T1 a" 

可以像这样到达第一个表:

library("rvest")
html_session("http://www.ajnr.org/content/30/7/1402.full") %>%
follow_link(css="#T1 a") %>%
html_table() %>%
View()

CSS 选择器:

".table-inline li:nth-child(1) a"

可以选择包含链接到四个表的标签的所有四个 html 节点:

library("rvest")
html("http://www.ajnr.org/content/30/7/1402.full") %>%
html_nodes(css=".table-inline li:nth-child(1) a")

如何能够循环遍历这个列表并一次性检索所有四个表?最好的方法是什么?

最佳答案

这是一种方法:

library(rvest)

url <- "http://www.ajnr.org/content/30/7/1402.full"
page <- read_html(url)

# First find all the urls
table_urls <- page %>%
html_nodes(".table-inline li:nth-child(1) a") %>%
html_attr("href") %>%
xml2::url_absolute(url)

# Then loop over the urls, downloading & extracting the table
lapply(table_urls, . %>% read_html() %>% html_table())

关于r - 在 R 和 rvest 中抓取多个链接的 HTML 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28729507/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com