gpt4 book ai didi

python - 具有不同编码的python3.5中的字符串长度

转载 作者:太空宇宙 更新时间:2023-11-04 02:44:20 24 4
gpt4 key购买 nike

我在 python 中试过这个来获取字符串的字节长度。

>>> s = 'a'
>>> s.encode('utf-8')
b'a'
>>> s.encode('utf-16')
b'\xff\xfea\x00'
>>> s.encode('utf-32')
b'\xff\xfe\x00\x00a\x00\x00\x00'
>>> len(s.encode('utf-8'))
1
>>> len(s.encode('utf-16'))
4
>>> len(s.encode('utf-32'))
8

utf-8 使用一个字节来存储一个ascii 字符,正如预期的那样,但是为什么utf-16 使用4 个字节呢? len() 测量的到底是什么?

最佳答案

长话短说:

UTF-8 : 1 byte 'a'
UTF-16: 2 bytes 'a' + 2 bytes BOM
UTF-32: 4 bytes 'a' + 4 bytes BOM
  • UTF-8 是一种变长编码,字符的编码长度可以在 1 到 4 个字节之间。它旨在匹配前 128 个字符的 ASCII,因此 'a' 是单字节宽度

  • UTF-16 是一种变长编码;代码点使用一个或两个 16 位代码单元(即 2 或 4 字节)编码,'a' 为 2 字节宽

  • UTF-32 是固定宽度的,每个代码点正好是 32 位,每个字符都是 4 字节宽,所以'a' 是 4 字节宽

对于以 UTF-8、UTF-16、UTF-32 编码的“a”的长度,您可能希望分别看到 1、2、4 的结果。 1、4、8 的实际结果被夸大了,因为在最后两种情况下,输出包括 BOM。 - \xff\xfe 是字节顺序标记,用于指示 endianness的数据。

unicode 标准允许使用 UTF-8 格式的 BOM,但既不要求也不推荐使用它(它在那里没有任何意义),这就是为什么您在第一个示例中看不到任何 BOM 的原因。 UTF-16 BOM 为 2 个字节宽,UTF-32 BOM 为 4 个字节宽(实际上它与 UTF-16 BOM 相同,加上一些填充空值)。

>>> 'a'.encode('utf-16')  # length 4: 2 bytes BOM + 2 bytes a
b'\xff\xfea\x00'
BOM.....a....
>>> 'aaa'.encode('utf-16') # length 8: 2 bytes BOM + 3*2 bytes of a
b'\xff\xfea\x00a\x00a\x00'
BOM.....a....a....a....

如果您使用 bitstring 模块查看原始位,则查看数据中的 BOM 可能会更清楚:

>>> # pip install bitstring
>>> from bitstring import Bits
>>> Bits(bytes='a'.encode('utf-32')).bin
'1111111111111110000000000000000001100001000000000000000000000000'
>>> Bits(bytes='aaa'.encode('utf-32')).bin
'11111111111111100000000000000000011000010000000000000000000000000110000100000000000000000000000001100001000000000000000000000000'
BOM.............................a...............................a...............................a...............................

关于python - 具有不同编码的python3.5中的字符串长度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45580023/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com