gpt4 book ai didi

xml - 使用R从XML提取信息

转载 作者:行者123 更新时间:2023-12-03 16:17:40 25 4
gpt4 key购买 nike

我正在尝试使用R和xpathSApply从以下html代码中提取日期信息:

                                                            </td>
</tr>
<tr
data-row-id="1363827503"
class="future "
data-lat-from="-33.946098"
data-lon-from="151.1772"
data-lat-to="33.94252"
data-lon-to="-118.406998"
data-name-from="Sydney Kingsford Smith Airport"
data-name-to="Los Angeles International Airport"
data-date="2015-03-23"
data-flight=""
data-flight-number="VA1"
>


这是我尝试过的R中的代码:

library(XML)
url<- "http://www.flightradar24.com/data/flights/va1/"
info<- htmlTreeParse(url, useInternalNodes=T)
xpathSApply(info, "//data-date", xmlValue)


返回:list()

我希望它返回:2015-03-23

最佳答案

这是您感兴趣的文档的一部分:

<tr
data-row-id="1363827503"
class="future "
data-lat-from="-33.946098"
data-lon-from="151.1772"
data-lat-to="33.94252"
data-lon-to="-118.406998"
data-name-from="Sydney Kingsford Smith Airport"
data-name-to="Los Angeles International Airport"
data-date="2015-03-23"
data-flight=""
data-flight-number="VA1"
>


如您所见, data-date不是元素,它是 tr元素的属性。使用 //tr/@data-date作为XPath表达式来检索 data-date属性。

但是请注意,此文档中有多个 data-date属性。要仅检索单个属性,还需要一种方法来标识特定的行,例如

//tr[@data-row-id="1363827503"]/@data-date


ID 1363827503在此文档中仅出现一次,因此是该 tr元素的唯一标识符。

关于xml - 使用R从XML提取信息,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29124918/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com