gpt4 book ai didi

python - 使用非 ASCII 字符在 Python 中执行文件 I/O

转载 作者:太空狗 更新时间:2023-10-30 02:50:06 27 4
gpt4 key购买 nike

我正在编写一个 Python 脚本,该脚本读取使用 UTF-8 编码的 XML 文件,对其进行一些操作并将其保存到 Google 的数据存储区(这是一个 App Engine 程序)。

我读取和解析文件的方式就是使用 file.readline() 和一些正则表达式。唯一的问题是我正在使用的文件中包含来自许多不同语言的字符,因此,例如,它可能包含 é 或 Å 或俄语或希腊语字符。

一开始我遇到这样的错误:“UnicodeDecodeError:‘ascii’编解码器无法解码位置 0 中的字节 0xd0:序号不在范围 (128) 内。”然后我尝试将打开的文件的编码切换为“ISO-8859-15”,这消除了错误,但输出的字符显示不正确。

所以我的问题是:如何在 Python 中处理以 UTF-8 编码的文件,而 Python 不会卡在文件中的所有特殊字符上?我希望这已经足够清楚了,并在此先感谢您的任何建议。

最佳答案

str.decode上指定UTF-8编码

>>> print '\xe2\x99\x9e'.decode('utf-8')

那应该是一个棋子,但它太小了,看不见:)

关于python - 使用非 ASCII 字符在 Python 中执行文件 I/O,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4752784/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com