gpt4 book ai didi

python - 高效解析 100 GB 的 xml 文件

转载 作者:数据小太阳 更新时间:2023-10-29 02:43:42 24 4
gpt4 key购买 nike

我的文件有点杂乱无章。我有一个大小为 100 gbs 的 foo.xml 文件,例如:

<root>
<abc>
<page>
<code>some_path_1</code>
<string>another_path_1</string>
</page>
</abc>
<def string="blah">
<game>some_text_again</game>
<blah attribs="yes" labs="check">some_text_again</blah>
</def>
.
.
.
</root>

我需要的预期输出是:

some_path_1
another_path_1
attrib: string=blah
some_text_again
attrib: attribs=yes, labs=check
some_text_again

目前我正在使用 lxml 解析器。如:

from lxml import etree
root = etree.parse('foo.xml').getroot()
for i in root.iterchildren():
# do something

什么是更好的方法,因为它是一个 100 GB 的文件。

最佳答案

我在处理一个大文件时遇到了同样的问题,发现我必须逐步解析它。

import xml.etree.ElementTree as ET
context = ET.iterparse(result_file_name, events=["end"])
# turn it into an iterator
context = iter(context)
for event, elem in context:
if event == "end":
.....

关于python - 高效解析 100 GB 的 xml 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50902062/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com