gpt4 book ai didi

python - 具有非 ascii 字符的字节字符串文字

转载 作者:太空狗 更新时间:2023-10-29 23:55:24 24 4
gpt4 key购买 nike

显然,我可以在 Python 2.7 中做到这一点:

value = '國華'

似乎 Python 正在使用一种编码将字符串文字中的字符编码为字节字符串。那个编码是什么?是sys.getdefaultencoding()中定义的编码,还是源文件的编码,还是别的?

谢谢

最佳答案

getdefaultencoding 与源文件或终端的编码无关。它是用于将字节字符串隐式转换为 Unicode 字符串的编码,在 Python 2.X 上应始终为“ascii”(在 Python 3.X 上为“utf8”)。

在 Python 2.X 上,脚本中未声明编码的代码行会产生错误:

SyntaxError: Non-ASCII character '\x87' in file ...

实际的非 ASCII 字符可能会有所不同,但如果没有编码声明,它将无法工作。要在 Python 2.X 上使用非 ASCII 字符,需要编码声明。编码声明必须匹配源文件编码。例如:

# coding: utf8
value = '國華'

当保存为 cp936 时产生:

SyntaxError: 'utf8' codec can't decode byte 0x87 in position 9: invalid start byte

当编码正确时,字节串中的字节就是源文件中的字面意思,因此它将包含字符的编码字节。当 Python 解析 Unicode 字符串时,使用声明的源编码将字节解码为 Unicode。注意在 cp936 控制台上打印 UTF-8 字节字符串和 Unicode 字符串时的区别:

# coding: utf8
value = '國華'
print value,repr(value)
value = u'國華'
print value,repr(value)

输出:

鍦嬭彲 '\xe5\x9c\x8b\xe8\x8f\xaf'
國華 u'\u570b\u83ef'

字节字符串包含两个字符的 3 字节 UTF-8 编码,但显示不正确,因为 cp936 终端无法理解字节序列。 Unicode 打印正确,字符串包含从源文件的 UTF-8 字节解码的 Unicode 代码点。

注意声明和使用与终端匹配的编码时的区别:

# coding: cp936
value = '國華'
print value,repr(value)
value = u'國華'
print value,repr(value)

输出:

國華 '\x87\xf8\xc8A'
國華 u'\u570b\u83ef'

字节串的内容现在是两个字符的 2 字节 cp936 编码('A' 相当于 '\x41')并且显示正确,因为终端理解 cp936 字节序列。 Unicode 字符串包含与前面示例相同的两个字符的 Unicode 代码点,因为源字节序列是使用声明的 Unicode 源编码解码的。

如果脚本具有正确的源编码声明并使用 Unicode 字符串作为文本,它将显示正确的字符1 而不管终端编码2。如果终端不支持字符而不是显示错误的字符,它将抛出 UnicodeEncodeError

最后一点:Python 2.X 默认使用 'ascii' 编码,除非另有声明,并且如果编码支持非 ASCII 字符,则允许在字节字符串中使用非 ASCII 字符。 Python 3.X 默认为 'utf8' 编码(因此请确保保存该编码或以其他方式声明),并且不允许允许字节字符串中的非 ASCII 字符。

1如果终端字体支持该字符。
2如果终端编码支持该字符。

关于python - 具有非 ascii 字符的字节字符串文字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11993289/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com