gpt4 book ai didi

rvest 从表中的指定列中抓取

转载 作者:行者123 更新时间:2023-12-04 03:21:12 28 4
gpt4 key购买 nike

我正试图在比赛列表中抓取足球运动员效力的俱乐部(例如,在 http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler/3110/wettbewerb/GB1 的 Alan Shearer,特别是在表 #3 中,名为“premier league”的休格)

令人讨厌的是,表格“For”列中的俱乐部被编码为类别为“tiny_wappen”的图片。我可以抓取这些并将它们放入 data.frame 中

link <- "http://www.transfermarkt.com/alan-shearer/leistungsdatendetails/spieler/3110/wettbewerb/GB1"
UrlPage <- read_html (link)
Node <- UrlPage %>% html_nodes("table") %>% `[`(3) %>% html_nodes("img.tiny_wappen")
ClubFor <- data.frame(html_attr(Node, "alt"))

但相邻列(vs.)中的一些(大约五分之一)俱乐部也在这个图像类中,所以我得到一个列表,上面点缀着与之交手的俱乐部。有没有办法指定要从中抓取的表列(或其他一些更聪明的方法来实现我想要的)?

一如既往的先发制人,

最佳答案

您可以使用xpaths 获取每一行的第四个单元格

Node <- UrlPage %>%
html_nodes(xpath = "//*[@id='main']/div[9]/div[1]/div[2]/div[3]/table/tbody/tr/td[4]/a/img")

ClubFor = Node %>%
html_attr("alt") %>%
data.frame()

关于rvest 从表中的指定列中抓取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38310556/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com