python - 将 XML 提取到以父属性作为列标题的数据框中-6ren

python - 将 XML 提取到以父属性作为列标题的数据框中

转载作者：行者123 更新时间：2023-11-28 16:43:08

26

4

我将处理数千个 XML 文件，它们的格式相似，但父名称和父数量不同。通过书籍、谷歌、教程和尝试代码，我已经能够提取所有这些数据。参见，例如:Parsing xml to pandas data frame throws memory error和 Dynamic search through xml attributes using lxml and xpath in python

但是，我意识到我提取的数据很糟糕，每个父项都重复了一个子项“Time”。

这就是我想要得到的。

Time   blah   abc
1200   100   2
1300   30    4
1400   70    2

这是我知道如何得到的。但我目前的方法很笨拙(我将在示例 XML 下方展示)

    child      Time   grandchild
0     blah     1200    100
1     blah     1300    30
...
n-2   abc      1200    2
n-1   abc      1300    4
n     abc      1400    2

示例 XML 格式

<outer>
   <inner>
      <parent name = "blah" id = "1"> 
         <child Time = "1200"> 
            <grandchild>100</grandchild>  
         </child>
         <child Time = "1300">
            <grandchild>30</grandchild>
         </child>
         <child Time = "1400">
            <grandchild>70</grandchild>
         </child>
      </parent>
      <parent name = "abc" id = "2"> 
         <child Time = "1200">   
            <grandchild>2</grandchild> 
         </child>
         <child Time = "1300">
            <grandchild>4</grandchild>
         </child>
         <child Time = "1400">
            <grandchild>2</grandchild>
         </child>
      </parent>      
      <parent name = "1234" id = "7734"> 
         <other> 12 </other>
      </parent> 
   </inner>
</outer>

这里是我如何得到我的输出:

from lxml import etree, objectify
from pandas import *
dTime=[]
dparent = []
dgrandchild=[]
for df in root.xpath('/*/*/*/parent/child'):
    dparent.append(df.getparent().attrib['name'])
    ## Iterate over attributes of time for specific parent
    for attrib in df.attrib:
    dTime.append(df.attrib[attrib])
        ## grandchild is a child of time, and iterate
        subfields = df.getchildren()
        for subfield in subfields:
         dgrandchild.append(subfield.text)
df=DataFrame({'Parent': dparent,'Time':dTime,'grandchild':dgrandchld})

我可以只接受这个输出并重新塑造它，但这似乎效率低下并且是一种非常笨拙的方法。

我想我需要一些味道:

#this does not work
data = []
for elem in root.xpath('/*/*/*/parent/child'):
   elem_data = {}
   for attrib in elem.attrib:
       elem_data['Time'] = elem.attrib[attrib])
   for child in elem.getchildren():
       elem_data[getparent().attrib['name'])] = child.text
       data.append(elem_data)
ndata = DataFrame(data)

最佳答案

我建议首先解析为 DataFrame，类似于您已经使用的方式(请参阅下文了解我的实现)，然后根据您的要求对其进行调整。

那么你正在寻找一个pivot :

In [11]: df
Out[11]:
  child  Time  grandchild
0  blah  1200         100
1  blah  1300          30
2   abc  1200           2
3   abc  1300           4
4   abc  1400           2

In [12]: df.pivot('Time', 'child', 'grandchild')
Out[12]:
child  abc  blah
Time
1200     2   100
1300     4    30
1400     2   NaN

我先推荐parse from a file并将你想要的东西取出到元组列表中:

from lxml import etree
root = etree.parse(file_name)

parents = root.getchildren()[0].getchildren()

In [21]: elems = [(p.attrib['name'], int(c.attrib['Time']), int(gc.text))
                      for p in parents
                      for c in p
                      for gc in c]

In [22]: elems
Out[22]:
[('blah', 1200, 100),
 ('blah', 1300, 30),
 ('blah', 1400, 70),
 ('abc', 1200, 2),
 ('abc', 1300, 4),
 ('abc', 1400, 2)]

对于多个文件，您可以在更长的列表理解中对其进行处理。 除非你有大量的 xml(这里 files 是 xml 的列表)，否则应该不会太慢...

elems = [(p.attrib['name'], int(c.attrib['Time']), int(gc.text))
            for f in files
            for p in etree.parse(f).getchildren()[0].getchildren()
            for c in p
            for gc in c]

将它们放入 DataFrame 中:

In [23]: pd.DataFrame(elems, columns=['child', 'Time', 'grandchild'])
Out[23]:
  child  Time grandchild
0  blah  1200        100
1  blah  1300         30
2  blah  1400         70
3   abc  1200          2
4   abc  1300          4
5   abc  1400          2

然后做枢轴。 :)

关于python - 将 XML 提取到以父属性作为列标题的数据框中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16991691/

26

4

0

文章推荐： jquery - 固定侧边栏，滑出 Canvas 导航

文章推荐： jQuery 对象属性而不是类

文章推荐： html - 将鼠标悬停在文本上并使其他地方的文本改变颜色

文章推荐： javascript - Momentjs 无法区分两个日期

javascript 属性 .net 属性
你能比较一下属性吗我想禁用文本框“txtName”。有两种方式使用javascript，txtName.disabled = true 使用 ASP.NET，哪种方法更好，为什么？最佳答案我
VBS教程：属性-Count 属性
Count 属性返回一个集合或 Dictionary 对象包含的项目数。只读。 object.Count object 可以是“应用于”列表中列出的任何集合或对
VBS教程：属性-CompareMode 属性
CompareMode 属性设置并返回在 Dictionary 对象中比较字符串关键字的比较模式。 object.CompareMode[ = compare] 参数
VBS教程：属性-Column 属性
Column 属性只读属性，返回 TextStream 文件中当前字符位置的列号。 object.Column object 通常是 TextStream 对象的名称。
VBS教程：属性-AvailableSpace 属性
AvailableSpace 属性返回指定的驱动器或网络共享对于用户的可用空间大小。 object.AvailableSpace object 应为 Drive
VBS教程：属性-Attributes 属性
Attributes 属性设置或返回文件或文件夹的属性。可读写或只读（与属性有关）。 object.Attributes [= newattributes] 参数 object
VBS教程：属性-AtEndOfStream 属性
AtEndOfStream 属性如果文件指针位于 TextStream 文件末，则返回 True；否则如果不为只读则返回 False。 object.A
VBS教程：属性-AtEndOfLine 属性
AtEndOfLine 属性 TextStream 文件中，如果文件指针指向行末标记，就返回 True；否则如果不是只读则返回 False。 object.AtEn
VBS教程：属性-RootFolder 属性
RootFolder 属性返回一个 Folder 对象，表示指定驱动器的根文件夹。只读。 object.RootFolder object 应为 Dr
VBS教程：属性-Path 属性
Path 属性返回指定文件、文件夹或驱动器的路径。 object.Path object 应为 File、Folder 或 Drive 对象的名称。说明对于驱动器，路径不包含根目录。
VBS教程：属性-ParentFolder 属性
ParentFolder 属性返回指定文件或文件夹的父文件夹。只读。 object.ParentFolder object 应为 File 或 Folder 对象的名称。说明以下代码
VBS教程：属性-Name 属性
Name 属性设置或返回指定的文件或文件夹的名称。可读写。 object.Name [= newname] 参数 object 必选项。应为 File 或&
VBS教程：属性-Line 属性
Line 属性只读属性，返回 TextStream 文件中的当前行号。 object.Line object 通常是 TextStream 对象的名称。说明文件刚
VBS教程：属性-Key 属性
Key 属性在 Dictionary 对象中设置 key。 object.Key(key) = newkey 参数 object 必选项。通常是 Dictionary
VBS教程：属性-Item 属性
Item 属性设置或返回 Dictionary 对象中指定的 key 对应的 item，或返回集合中基于指定的 key 的&
VBS教程：属性-IsRootFolder 属性
IsRootFolder 属性如果指定的文件夹是根文件夹，返回 True；否则返回 False。 object.IsRootFolder object 应为&n
VBS教程：属性-IsReady 属性
IsReady 属性如果指定的驱动器就绪，返回 True；否则返回 False。 object.IsReady object 应为 Drive&nbs
VBS教程：属性-FreeSpace 属性
FreeSpace 属性返回指定的驱动器或网络共享对于用户的可用空间大小。只读。 object.FreeSpace object 应为 Drive 对象的名称。
VBS教程：属性-FileSystem 属性
FileSystem 属性返回指定的驱动器使用的文件系统的类型。 object.FileSystem object 应为 Drive 对象的名称。说明可
VBS教程：属性-Files 属性
Files 属性返回由指定文件夹中所有 File 对象（包括隐藏文件和系统文件）组成的 Files 集合。 object.Files object&n

首页

博学

6Ren·AI

商城

python - 将 XML 提取到以父属性作为列标题的数据框中