gpt4 book ai didi

python - Python中使用unicode字符时的不同编码

转载 作者:行者123 更新时间:2023-12-01 09:09:17 29 4
gpt4 key购买 nike

当我遇到组合 unicode 而不是内置 unicode 时,我在 Python 中遇到问题。这是重现代码:

# encoding=utf8

a = ["Địa"]
b = ["Địa"]

print(a) # ['\xc4\x90i\xcc\xa3a']
print(b) # ['\xc4\x90\xe1\xbb\x8ba']

print("Địa" in a) # False
print("Địa" in b) # True

如何将它们转换/标准化为相同的编码器?

最佳答案

您可以使用unicodedata.normalize():

# encoding=utf8
import unicodedata
a = ["Địa"]
b = ["Địa"]

print("Địa" in [unicodedata.normalize('NFC', i) for i in a])
print("Địa" in [unicodedata.normalize('NFC', i) for i in b])

输出:

True
True

关于python - Python中使用unicode字符时的不同编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51801917/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com