- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
考虑以下 XML
示例
library(xml2)
myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
在这里,我想从此 XML 中获取一个(R 或 Pandas)数据框,其中包含列 name
和 hobby
。
但是,如您所见,存在对齐问题,因为第二个节点中缺少 hobby
,而 John 有两个爱好。
在 R 中,我知道如何一次提取一个特定值,例如使用 xml2
如下:
myxml%>%
xml_find_all("//name") %>%
xml_text()
myxml%>%
xml_find_all("//hobby") %>%
xml_text()
但是我怎样才能在数据框中正确对齐这些数据呢?也就是说,我如何获得如下数据框(注意我是如何加入 |
John 的两个爱好):
# A tibble: 2 × 3
name hobby skill
<chr> <chr> <chr>
1 John tennis|golf python
2 Robert <NA> R
在 R 中,我更喜欢使用 xml2
和 dplyr
的解决方案。在 Python 中,我想以 Pandas 数据框结束。此外,在我的 xml 中还有更多我想要解析的变量。我想要一个解决方案,它允许用户解析额外的变量,而不会对代码造成太多干扰。
谢谢!
编辑:感谢大家提供这些出色的解决方案。所有这些都非常好,有很多细节,很难挑选出最好的。再次感谢!
最佳答案
不需要对变量进行硬编码的通用 R 解决方案。
使用 xml2
和 tidyverse 的 purrr
:
library(xml2)
library(purrr)
myxml %>%
xml_find_all('obs') %>%
# Enter each obs and return a df
map_df(~{
# Scan names
node_names <- .x %>%
xml_children() %>%
xml_name() %>%
unique()
# Remember ob
ob <- .x
# Enter each node
map(node_names, ~{
# Find similar nodes
node <- xml_find_all(ob, .x) %>%
xml_text(trim = TRUE) %>%
paste0(collapse = '|') %>%
'names<-'(.x)
# ^ we need to name the element to
# overwrite it with its 'sibilings'
}) %>%
# Return an 'ob' vector
flatten()
})
#> # A tibble: 2 × 3
#> name hobby skill
#> <chr> <chr> <chr>
#> 1 John tennis|golf python
#> 2 Robert <NA> R
obs
,查找并存储该 obs 中的节点名称。obs
中找到所有相似的节点,折叠它们并存储在列表中。rbind
(隐含在 map_df()
中)每个“扁平化”列表到生成的 data.frame
中。myxml <- read_xml('
<data>
<obs ID="a">
<name> John </name>
<hobby> tennis </hobby>
<hobby> golf </hobby>
<skill> python </skill>
</obs>
<obs ID="b">
<name> Robert </name>
<skill> R </skill>
</obs>
</data>
')
关于 python /R : generate dataframe from XML when not all nodes contain all variables?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44230413/
for /f "tokens=*" %%a in ('find /v ":" "%appdata%\gamelauncher\options.txt" ^| find "menu=a"') do (
我在 Javascript 中有一组全局计数器变量: var counter_0 = 0; var counter_1 = 0; var counter_2 = 0; 等等 然后我有一个 Javasc
好的,我正在阅读一些有关 RedBlackTrees 的代码。我注意到这一行“v1 = v2 = v3 = v4;”我理解类似“v1 += v2”(将 v2 添加到 v1 的当前值)和“v1 = v2
我正在为 C# 中的游戏数据加载制作一个 csv 阅读器,我想做的就是从数组(变量)的值声明一个变量,我们可以在 php 中像 $$foo 那样做。喜欢 void csvReader(string s
假设我有变量 内容为“ 123 ”和变量 b123 里面有一些文字。出于某种原因,我想使用变量 作为第二个 var 名称的一部分。像这样的东西: SET a=123 SET b123=some_tex
我对 javascript 有点陌生,我无法通过谷歌搜索找到任何内容,我正在编写一个程序,并且能够执行我所要求的操作: if (Variable == 1 或 Variable == 2 或 Vari
我发现我自己在做这种类型的 IF 语句分配。例如: if($variable == 1 || $variable == "whatever" || $variable == '492') { ...
我的虚拟 PC 在 MS-DOS 6.22 上运行时出现问题。 我需要使用变量 Date ,但我无法得到它,因为每当我尝试回显变量时,它都会显示 %variable%反而。 我在 Windows 控制
尝试运行此代码时: List list = em.createQuery("select balance b from Users where b.userName = '" + user_name.
我有一些代码,其中变量可以是 undefined、null 或正常值。无论变量是 undefined 还是 null,代码都需要做同样的事情。说有没有危险 for (var cur = this.bu
我正在编写一个批处理命令脚本,其中检查环境变量。我需要通过传递所有必需的变量来编写一个 FOR 循环,然后验证它是否已定义,如果未定义,则提示该键的值并永久设置该变量。 问题是我无法取消引用循环变量并
我知道这些是 Rails 的基础知识,但我仍然不知道 = 符号和 => 之间的全部区别以及 @some_variable 之间的区别、@@some_variable 和 :some_variable
我正在使用以下内容创建一个动态变量(PHP 术语中的“变量变量”): foo: "test1" set to-word (rejoin [foo "_result_data"]) array 5 但是
我一直在啃 PHP 套接字服务器和客户端的基础知识 here . 然后我偶然发现了这些行(摘自上面链接的第一个示例,发生在 while 中): if (false === ($buf = socket
这个问题在这里已经有了答案: What does "|=" mean? (pipe equal operator) (6 个答案) 关闭 9 年前。 我正在寻找一些编码来扩展我在 Java 方面的知
如何在 C++ 中从其他变量的值打印变量我只是 C++ 的新手。 在 php 中,我们可以通过其他变量的值来制作/打印一个变量。像这样。 $example = 'foo'; $foo = 'abc';
作为 Ruby on Rails 新手,我明白“@”和“:”引用有不同的含义。我看到了this post在 SO 中,其中描述了一些差异。 @ 表示实例变量(例如@my_selection) :表示别
编程新手/甚至更新。一个小的 go 程序有问题 - 不会编译带有 undefined variable 错误。代码: package main import ( "fmt" "io" "o
我知道其他一些语言,如PHP,支持“变量变量名”的概念--即,字符串的内容可以用作变量名的一部分。。我听说总的来说这不是一个好主意,但我认为它可以解决我在Python代码中遇到的一些问题。。有没有可能
我有两个版本的代码。 版本 1 Launcher.java class Launcher { public static void main(String[] args) {
我是一名优秀的程序员,十分优秀!