gpt4 book ai didi

readHTMLTables -- 检索与政府首脑相关的文章的国家名称和 url

转载 作者:行者123 更新时间:2023-12-05 00:35:04 27 4
gpt4 key购买 nike

我想制作一张真实世界总统的 map 。

为此,我想从维基百科中抓取每位总统的图像。

第一步是从 wiki 页面获取数据: http://en.wikipedia.org/wiki/List_of_current_heads_of_state_and_government

我在获取国家名称和总统页面 url 时遇到了麻烦,因为该表具有行跨度。

目前,我的代码如下所示,但由于行跨越,所以不正常。

    library(XML)    
u = "http://en.wikipedia.org/wiki/List_of_current_heads_of_state_and_government"
doc = htmlParse(u)
tb = getNodeSet(doc, "//table")[[3]]

stateNames <- readHTMLTable(tb)$State
presidentUrls <- xpathSApply(tb, "//table/tr/td[2]/a[2]/@href")

欢迎提出任何想法!

垫子

最佳答案

如果表中存在异质性,我认为我们不能通过一行代码来解决问题。在您的情况下,一些 td 具有 colspan=2,而其他则没有。因此可以使用如下过滤器分别选择和处理它们:

    nations1 <- xpathSApply(tb, "//table/tr[td[@colspan='2']]/td[1]/a/text()")
nations2 <- xpathSApply(tb, "//table/tr[count(td)=3]/td[1]/a/text()")

如果您满足表中其他类型的条件,请记住 XPath 有更多。

关于readHTMLTables -- 检索与政府首脑相关的文章的国家名称和 url,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16079147/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com