gpt4 book ai didi

python - 使用 python mindom 读取具有不同编码的 XML

转载 作者:太空宇宙 更新时间:2023-11-04 04:41:10 25 4
gpt4 key购买 nike

我写了一个使用 minidom 读取 XML 文件的脚本:

from xml.dom.minidom import parse
for File in Data['FileList']:
Xml = parse(File)
#do something

运行良好,但有些人正在创建 XML,在 XML 中定义 UTF-8 编码并在标签中使用德语变音符号,所以我遇到了 xml.parsers.expat.ExpatError: not well-formed (invalid token)。

如果我在 XML 中手动将 encoding="ISO-8859-1"更改为它运行正常。

是否有更优雅的方式来更改编码,而不是编辑 XML 文件,例如告诉 minidom 使用不同于 XML 中定义的编码?

最佳答案

我建议你这个解决方案:

在解析文件之前,正常打开它,并将它对应于 XML header 的第一行替换为以下行:

<?xml version="1.0" encoding="ISO-8859-1"?>

然后保存文件并将其传递给 minidom.parse() 函数。

这可能会帮助您替换每个文件中的第一行:Search and replace a line in a file in Python

关于python - 使用 python mindom 读取具有不同编码的 XML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50579869/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com