- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
>>> c='中文'
>>> c
'\xe4\xb8\xad\xe6\x96\x87'
>>> len(c)
6
>>> cu=u'中文'
>>> cu
u'\u4e2d\u6587'
>>> len(cu)
2
>>> s='𤭢'
>>> s
'\xf0\xa4\xad\xa2'
>>> len(s)
4
>>> su=u'𤭢'
>>> su
u'\U00024b62'
>>> len(su)
2
>>> import sys
>>> sys.getdefaultencoding()
'ascii'
>>> sys.stdout.encoding
'UTF-8'
首先,我想弄清楚一些概念。我了解到像 cu=u'中文'
这样的 unicode 字符串实际上是由 python shell 默认以 UTF-16 编码的。正确的? 那么,当我们看到 '\u*'
时,实际上是 UTF-16 编码
?而'\u4e2d\u6587'
是unicode串还是byte串?但是cu
要存入内存,所以
0100 1110 0010 1101 0110 0101 1000 0111
(convert\u4e2d\u6587 to binary) 是 cu
保留的形式,如果是字节串? 我说得对吗?
但不能是字节串。否则len(cu)不可能是2,应该是4!!所以它必须是unicode字符串。 但是!!!我也learned那个
python attempts to implicitly encode the Unicode string with whatever scheme is currently set in sys.stdout.encoding, in this instance it's "UTF-8".
>>> cu.encode('utf-8')
'\xe4\xb8\xad\xe6\x96\x87'
所以! len(cu)
== 2 怎么可能???是因为里面有两个'\u'
吗?
但这并不能使 len(su) == 2
有意义!
我错过了什么吗?
我正在使用 python 2.7.12
最佳答案
Python unicode
类型包含 Unicode 代码点,并不意味着是一种编码。 Python 如何在内部执行此操作是一个实现细节,而不是您在大多数情况下需要关心的事情。它们不是 UTF-16 代码单元,因为 UTF-16 是另一种可用于对 Unicode 文本进行编码的编解码器,就像 UTF-8 一样。
这里最重要的是标准的 Python str
对象包含 bytes,它可能包含也可能不包含编码为特定编解码器的文本(您的示例使用 UTF- 8 但这不是给定的),unicode
包含 Unicode 代码点。在交互式解释器 session 中,终端的编解码器确定 Python 接收哪些字节(然后在创建 u 时使用
sys.stdin.encoding
根据需要解码这些字节'...'unicode
对象)。
只有当写入sys.stdout
(比如,当使用print
)时,sys.stdout.encoding
值开始发挥作用,Python 将再次自动对您的 Unicode 字符串进行编码。只有然后您的 2 个 Unicode 代码点将再次编码为 UTF-8 并写入您的终端,终端知道如何解释它们。
你可能想阅读有关 Python 和 Unicode 的内容,我推荐:
关于python - len(unicode 字符串),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39835779/
给定 data Person = Person { _name :: String } makeClassy ''Person 它创建了一个 name :: Lens' Person String 我
Python内置的len()函数的成本是多少?(列表/元组/字符串/词典)
这个问题在这里已经有了答案: 9年前关闭。 Possible Duplicate: lenses, fclabels, data-accessor - which library for struct
Python 哪个性能更好: 1) for i in range(len(a[:-1])): foo() 或 2) for i in range(len(a)-1): foo() 更新
我正在学习 Python 并正在学习谷歌代码类(class)。在 list2.py 示例中,他们要求我们编写一个函数: Given two lists sorted in increasing ord
我最近开始使用 Python 进行数据分析,由于我不是从头开始学习 Python,所以我觉得我错过了一些细微差别。 我注意到的一件事是,在我的一份报告中,我从 CSV 文件中导入了一个数据集,将其作为
为什么a[len(a):] = [x]等同于a.append(x),但是a[len(a) ] = [x] 给出超出范围的错误? 最佳答案 根据 the documentation (强调我的): If
当我运行以下宏时: Sub try() Dim num As Integer num = 123 MsgBox Len(num) MsgBox VBA.Len(num)
我目前正在获取 Python 3.x 中以 0 的随机长度结尾的随机数列表。例如,我得到以下一组随机数字字符串: String 1 = 203502000000 String 2 = 30293300
我正在学习 numba 并遇到了这种我不理解的“奇怪”行为。我尝试使用以下代码(在 iPython 中,用于计时): import numpy as np import numba as nb @nb
在Go , 要检查字符串是否为空,可以使用: len(str) == 0 或 len(str) < 1 或 str == "" 基本上就是选择运营商的一米== , < , != ,但就性能而言希望选项
我正在尝试创建一个函数 hpure通过重复相同的元素直到达到所需的长度来生成 hvect。每个元素可能有不同的类型。例如:如果参数是 show 每个元素将是 show 函数的特化。 hpure sho
我正在实现一个图形操作脚本,但我对以下错误感到困惑: Traceback (most recent call last): File ".....py", line 12, in pri
通常为了节省一些时间,我希望我们在本地函数中使用 n = len(s)。我很好奇哪个调用更快或者它们相同? while i < len(s): # do something 对比 while i
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
大家好! 我从这个网站找到了这段很棒的代码: var points = [30,100]; document.getElementById("demo").innerHTML = myArrayMax
我有一个输出 17 个维度的解码器,其中不同部分是标签和数字。因此,对于标签,我使用了 one-hot 编码并使用“softmax”激活,对于数字,我使用了“sigmoid”激活函数。 这是解码器:
我在下面得到了这段代码,但即使调试它,我也不明白为什么给出 7 而不是 6。 更准确地说,当我调试每个返回时都会给我预期的结果: 第一个函数调用:ipdb> --Return-- ['a'] 第二个函
上述分配可能会出现什么样的问题?如果我们分配实际数据类型的大小而不是该类型指针的大小? 对于 sizeof (char*) > sizeof (char) 的字符来说,这会是一个问题吗?其他数据类型和
我知道 somelist[len(somelist)] 无法访问定义列表之外的索引 - 这是有道理的。 但是为什么 Python 允许你做 somelist[len(somelist):]? 我什至读
我是一名优秀的程序员,十分优秀!