python /R : generate dataframe from XML when not all nodes contain all variables?-6ren

python /R : generate dataframe from XML when not all nodes contain all variables?

转载作者：太空狗更新时间：2023-10-29 21:02:29

24

4

考虑以下 XML 示例

library(xml2)

myxml <- read_xml('
<data>
  <obs ID="a">
  <name> John </name>
  <hobby> tennis </hobby>
  <hobby> golf </hobby>
  <skill> python  </skill>
  </obs>
  <obs ID="b">
  <name> Robert </name>
  <skill> R </skill>
  </obs>
  </data>
')

在这里，我想从此 XML 中获取一个(R 或 Pandas)数据框，其中包含列 name 和 hobby。

但是，如您所见，存在对齐问题，因为第二个节点中缺少 hobby，而 John 有两个爱好。

在 R 中，我知道如何一次提取一个特定值，例如使用 xml2 如下:

myxml%>% 
  xml_find_all("//name") %>% 
  xml_text()

myxml%>% 
  xml_find_all("//hobby") %>% 
  xml_text()

但是我怎样才能在数据框中正确对齐这些数据呢？也就是说，我如何获得如下数据框(注意我是如何加入 | John 的两个爱好):

# A tibble: 2 × 3
    name           hobby            skill
   <chr>           <chr>            <chr>
1   John          tennis|golf       python
2 Robert            <NA>            R

在 R 中，我更喜欢使用 xml2 和 dplyr 的解决方案。在 Python 中，我想以 Pandas 数据框结束。此外，在我的 xml 中还有更多我想要解析的变量。我想要一个解决方案，它允许用户解析额外的变量，而不会对代码造成太多干扰。

谢谢!

编辑:感谢大家提供这些出色的解决方案。所有这些都非常好，有很多细节，很难挑选出最好的。再次感谢!

最佳答案

不需要对变量进行硬编码的通用 R 解决方案。
使用 xml2 和 tidyverse 的 purrr:

library(xml2)
library(purrr)

myxml %>% 
  xml_find_all('obs') %>%      
  # Enter each obs and return a df
  map_df(~{

    # Scan names
    node_names <- .x %>% 
      xml_children() %>% 
      xml_name() %>%
      unique()        

    # Remember ob
    ob <- .x

    # Enter each node
    map(node_names, ~{

      # Find similar nodes
      node <- xml_find_all(ob, .x) %>%
        xml_text(trim = TRUE) %>%
        paste0(collapse = '|') %>% 
        'names<-'(.x)
        # ^ we need to name the element to 
        #   overwrite it with its 'sibilings'

    }) %>% 
      # Return an 'ob' vector
      flatten()        
  })

#> # A tibble: 2 Ã— 3
#>     name       hobby  skill
#>    <chr>       <chr>  <chr>
#> 1   John tennis|golf python
#> 2 Robert        <NA>      R

它的作用:

它“输入”每个 obs，查找并存储该 obs 中的节点名称。
对于每个节点，在 obs 中找到所有相似的节点，折叠它们并存储在列表中。
展开列表，覆盖同名元素。
rbind(隐含在 map_df() 中)每个“扁平化”列表到生成的 data.frame 中。

数据:

myxml <- read_xml('
                  <data>
                  <obs ID="a">
                  <name> John </name>
                  <hobby> tennis </hobby>
                  <hobby> golf </hobby>
                  <skill> python  </skill>
                  </obs>
                  <obs ID="b">
                  <name> Robert </name>
                  <skill> R </skill>
                  </obs>
                  </data>
                  ')

关于 python /R : generate dataframe from XML when not all nodes contain all variables?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44230413/

24

4

0

文章推荐： c# - 使用 LINQ 按小时分组

文章推荐： c++ - AddFontMemResourceEx

文章推荐： c++ - 不能 phoenix::bind qi::_val with boost 1.53(回归？)

variables - : %%a and %variable% variables? 有什么区别
for /f "tokens=*" %%a in ('find /v ":" "%appdata%\gamelauncher\options.txt" ^| find "menu=a"') do (
Javascript "Variable Variables": how to assign variable based on another variable?
我在 Javascript 中有一组全局计数器变量: var counter_0 = 0; var counter_1 = 0; var counter_2 = 0; 等等然后我有一个 Javasc
java - 语法 "variable = variable = variable;"发生了什么？
好的，我正在阅读一些有关 RedBlackTrees 的代码。我注意到这一行“v1 = v2 = v3 = v4;”我理解类似“v1 += v2”(将 v2 添加到 v1 的当前值)和“v1 = v2
c# - 从数组值声明 "variable variables"或 "dynamic variables"？
我正在为 C# 中的游戏数据加载制作一个 csv 阅读器，我想做的就是从数组(变量)的值声明一个变量，我们可以在 php 中像 $$foo 那样做。喜欢 void csvReader(string s
variables - BAT 文件 : variable contents as part of another variable
假设我有变量内容为“ 123 ”和变量 b123 里面有一些文字。出于某种原因，我想使用变量作为第二个 var 名称的一部分。像这样的东西: SET a=123 SET b123=some_tex
javascript - 有没有办法在javascript中执行类似 if (Variable == 1 or Variable == 2 or Variable == 3) 的操作？
我对 javascript 有点陌生，我无法通过谷歌搜索找到任何内容，我正在编写一个程序，并且能够执行我所要求的操作: if (Variable == 1 或 Variable == 2 或 Vari
php - 简写做类似 : if($variable == 1 || $variable == "whatever" || $variable == '492' ) . 的事情
我发现我自己在做这种类型的 IF 语句分配。例如: if($variable == 1 || $variable == "whatever" || $variable == '492') { ...
variables - Echo %variable% 在 MS-DOS 6.22 中显示 %variable%
我的虚拟 PC 在 MS-DOS 6.22 上运行时出现问题。我需要使用变量 Date ，但我无法得到它，因为每当我尝试回显变量时，它都会显示 %variable%反而。我在 Windows 控制
variables - 语法错误解析 JPQL : An identification variable must be provided for a range variable declaration
尝试运行此代码时: List list = em.createQuery("select balance b from Users where b.userName = '" + user_name.
javascript - 使用 variable != null 而不是 variable !== undefined && variable !== null 是否可以接受？
我有一些代码，其中变量可以是 undefined、null 或正常值。无论变量是 undefined 还是 null，代码都需要做同样的事情。说有没有危险 for (var cur = this.bu
Windows 批处理命令 : How to dereference FOR loop variable to check if that variable is SET in Environment Variable
我正在编写一个批处理命令脚本，其中检查环境变量。我需要通过传递所有必需的变量来编写一个 FOR 循环，然后验证它是否已定义，如果未定义，则提示该键的值并永久设置该变量。问题是我无法取消引用循环变量并
ruby-on-rails - ruby 中的 "="& "=>"和 "@variable"、 "@@variable"和 ":variable"有什么区别？
我知道这些是 Rails 的基础知识，但我仍然不知道 = 符号和 => 之间的全部区别以及 @some_variable 之间的区别、@@some_variable 和 :some_variable
rebol - 评估 "variable variable"
我正在使用以下内容创建一个动态变量(PHP 术语中的“变量变量”): foo: "test1" set to-word (rejoin [foo "_result_data"]) array 5 但是
php - !$variable = $variable inside if
我一直在啃 PHP 套接字服务器和客户端的基础知识 here . 然后我偶然发现了这些行(摘自上面链接的第一个示例，发生在 while 中): if (false === ($buf = socket
java - variable |= variable 是什么意思？
这个问题在这里已经有了答案: What does "|=" mean? (pipe equal operator) (6 个答案) 关闭 9 年前。我正在寻找一些编码来扩展我在 Java 方面的知
C++ : value from variable as variable
如何在 C++ 中从其他变量的值打印变量我只是 C++ 的新手。在 php 中，我们可以通过其他变量的值来制作/打印一个变量。像这样。 $example = 'foo'; $foo = 'abc';
ruby - :variable and @variable 之间的差异
作为 Ruby on Rails 新手，我明白“@”和“:”引用有不同的含义。我看到了this post在 SO 中，其中描述了一些差异。 @ 表示实例变量(例如@my_selection) :表示别
variables - 去编译错误: undefined variables
编程新手/甚至更新。一个小的 go 程序有问题 - 不会编译带有 undefined variable 错误。代码: package main import ( "fmt" "io" "o
How do I create variable variables?(如何创建变量变量？)
我知道其他一些语言，如PHP，支持“变量变量名”的概念--即，字符串的内容可以用作变量名的一部分。。我听说总的来说这不是一个好主意，但我认为它可以解决我在Python代码中遇到的一些问题。。有没有可能
java - Java类中的 "int variable = 0;"和 "int variable; variable = 0;"有什么区别？
我有两个版本的代码。版本 1 Launcher.java class Launcher { public static void main(String[] args) {

首页

博学

6Ren·AI

商城

python /R : generate dataframe from XML when not all nodes contain all variables?

它的作用:

数据: