- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我正在尝试在 R 中解析以下 XML 文件:http://reports.ieso.ca/public/GenOutputCapability/PUB_GenOutputCapability_20140517_v24.xml
到目前为止,我的脚本非常简单:
file <- "http://reports.ieso.ca/public/GenOutputCapability/PUB_GenOutputCapability_20140517_v24.xml"
doc <- xmlTreeParse(file, useInternal=TRUE)
rootNode <- xmlRoot(doc)
xpathSApply(rootNode, "//GeneratorName", xmlValue)
每当我运行它时,我的输出只是一个空列表。
将此用于其他 XML 文件,我可以毫无问题地提取值,但对于这个特定文件,我无法提取任何内容。我已经尝试了许多不同的节点、大写字母、使用 useInternal=FALSE 以及我可以尝试的任何其他组合,但仍然没有成功。
例如,我可以使用 rootNode[["IMODocBody"]][["Date"]] 语法访问部件以获取日期,因此我知道文件已加载。有什么想法吗?
最佳答案
您需要使用适当的命名空间:
> head(xpathSApply(doc, "//ns:GeneratorName", xmlValue
, namespaces = c(ns = "http://www.theIMO.com/schema")))
[1] "BRUCEA-G1" "BRUCEA-G2" "BRUCEA-G3" "BRUCEA-G4" "BRUCEB-G5" "BRUCEB-G6"
参见 ?xmlNamespaceDefinitions
> xmlNamespaceDefinitions(doc)
[[1]]
$id
[1] ""
$uri
[1] "http://www.theIMO.com/schema"
$local
[1] TRUE
attr(,"class")
[1] "XMLNamespaceDefinition"
$xsi
$id
[1] "xsi"
$uri
[1] "http://www.w3.org/2001/XMLSchema-instance"
$local
[1] TRUE
attr(,"class")
[1] "XMLNamespaceDefinition"
attr(,"class")
[1] "XMLNamespaceDefinitions"
关于xml - 使用 xpathSApply、R v3.1.1、XML v3.98-1.1 解析 XML 文件时出现问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25315853/
以下网址包含数字和表格,我喜欢阅读表格的前两列。 xpatahSApply 命令工作正常,但我需要以两个以上的属性为条件,我无法弄清楚。 url ="http://floodobservatory.c
我正在尝试从网站的一部分中提取文本。包含文本的div节点还包含几个子节点,每个子节点都有自己的文本或其他内容。但是,我只希望顶部节点中的文本而不是其子级中的文本! 这是相关页面部分的样子:
我正在尝试提取包含一首阿拉伯诗的表格。您可以在here查看这首诗 我尝试解析表格... URL % read_html() %>% html_nodes(xpath = '//p[@class
假设我有以下内容: library(XML) my.xml Star Trek TNG 1.0 Doctor Who Babylo
这是对 a very similar question 的跟进我已经问过了,但这次我试图获取 xmlAttrs 而不是 xmlValue。假设我们有以下内容: my.xml Star
我正在尝试从以下链接 http://cepea.esalq.usp.br/frango/?page=379&Dias=15 中抓取第二个表 我使用 XML 包尝试了以下 R 代码: p_fra
我正在使用 xpathSApply(在 XML 包中)在 R 中抓取 XML,但无法提取属性。 首先,一段相关的 XML 片段: Fancy Product 我已经使
假设我使用以下表达式解析了一个网站 library(XML) url.df_1 = htmlTreeParse("http://www.appannie.com/app/android/com.kin
我有一堆网页,我想提取它们的发布日期。对于某些网页,日期位于“abbr”标签中(例如:abbr class=\"published\"title=\"2012-03-14T07:13:39+00:00
我正在尝试在 R 中解析以下 XML 文件:http://reports.ieso.ca/public/GenOutputCapability/PUB_GenOutputCapability_2014
我是一名优秀的程序员,十分优秀!