gpt4 book ai didi

python - LXML - 排序标签顺序

转载 作者:太空狗 更新时间:2023-10-29 22:03:06 25 4
gpt4 key购买 nike

我有一个遗留文件格式,我正在将其转换为 XML 进行处理。结构可以概括为:

<A>
<A01>X</A01>
<A02>Y</A02>
<A03>Z</A03>
</A>

标签的数字部分可以从 01 到 99,并且可能会有间隙。作为处理的一部分,某些记录可能会添加额外的标签。处理完成后,我通过 iterwalking 树将文件转换回旧格式。这些文件相当大(约 150,000 个节点)。

一个问题是一些使用旧格式的软件假定标签(或者更确切地说是转换时的字段)将按字母数字顺序排列,但默认情况下新标签将添加到标签的末尾然后导致它们以错误的顺序从迭代器中出来的分支。

每次添加新标签时,我都可以使用 xpath 根据标签名称查找前面的兄弟,但我的问题是是否有更简单的方法在导出之前立即对树进行排序?

编辑:

我认为我过度概括了结构。

一条记录可以包含多个级别,如上文所述,例如:

<X>
<X01>1</X01>
<X02>2</X02>
<X03>3</X03>
<A>
<A01>X</A01>
<A02>Y</A02>
<A03>Z</A03>
</A>
<B>
<B01>Z</B02>
<B02>X</B02>
<B03>C</B03>
</B>
</X>

最佳答案

可以编写一个辅助函数来在正确的位置插入一个新元素,但如果不了解更多关于结构的信息,就很难使其通用。

这是一个在整个文档中对子元素进行排序的简短示例:

from lxml import etree

data = """<X>
<X03>3</X03>
<X02>2</X02>
<A>
<A02>Y</A02>
<A01>X</A01>
<A03>Z</A03>
</A>
<X01>1</X01>
<B>
<B01>Z</B01>
<B02>X</B02>
<B03>C</B03>
</B>
</X>"""

doc = etree.XML(data,etree.XMLParser(remove_blank_text=True))

for parent in doc.xpath('//*[./*]'): # Search for parent elements
parent[:] = sorted(parent,key=lambda x: x.tag)

print etree.tostring(doc,pretty_print=True)

产量:

<X>
<A>
<A01>X</A01>
<A02>Y</A02>
<A03>Z</A03>
</A>
<B>
<B01>Z</B01>
<B02>X</B02>
<B03>C</B03>
</B>
<X01>1</X01>
<X02>2</X02>
<X03>3</X03>
</X>

关于python - LXML - 排序标签顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8385358/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com