gpt4 book ai didi

python - 如何在 Python 中将\xXY 编码的字符转换为 UTF-8?

转载 作者:太空狗 更新时间:2023-10-30 00:57:47 26 4
gpt4 key购买 nike

我有一个文本,其中包含诸如“\xaf”、“\xbe”之类的字符,据我从 this question 中了解到, 是 ASCII 编码的字符。

我想用 Python 将它们转换为 UTF-8 等价物。通常的 string.encode("utf-8") 抛出 UnicodeDecodeError。有没有更好的方法,例如,使用 codecs 标准库?

样本 200 characters here .

最佳答案

您的文件已经是 UTF-8 编码文件。

# saved encoding-sample to /tmp/encoding-sample
import codecs
fp= codecs.open("/tmp/encoding-sample", "r", "utf8")
data= fp.read()

import unicodedata as ud

chars= sorted(set(data))
for char in chars:
try:
charname= ud.name(char)
except ValueError:
charname= "<unknown>"
sys.stdout.write("char U%04x %s\n" % (ord(char), charname))

并手动填写未知名称:
char U000a 换行
char U001e 信息分隔符二
char U001f 信息分隔符一

关于python - 如何在 Python 中将\xXY 编码的字符转换为 UTF-8?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4736261/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com