- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
根据David Beazley的page 29 of Python Essential Reference (4th Edition):
直接编写原始UTF-8编码的字符串,例如'Jalape\xc3\xb1o'
只需生成一个九个字符的字符串U + 004A,U + 0061,U + 006C,
U + 0061,U + 0070,U + 0065,U + 00C3,U + 00B1,U + 006F,可能不是
您想要的。这是因为在UTF-8中,多字节序列
\xc3\xb1
应该代表单个字符U + 00F1,而不是
两个字符U + 00C3和U + 00B1。
这不应该是8个字符-不是9个字符吗?他说:\xc3\xb1
应该代表单个字符。
最佳答案
Steven D'Aprano的另一个superbly comprehensive answer from: comp.lang.python(我已尝试将其格式化为stackoverflow):
直接编写原始UTF-8编码的字符串,例如'Jalape\xc3\xb1o'
只需生成一个九个字符的字符串U + 004A,U + 0061,U + 006C,
U + 0061,U + 0070,U + 0065,U + 00C3,U + 00B1,U + 006F,可能不是
您想要的。这是因为在UTF-8中,多字节序列
\xc3\xb1
应该代表单个字符U + 00F1,而不是
两个字符U + 00C3和U + 00B1。
这表明了基本概念的混乱,而仍然
不小心绊倒了基本事实吧。难怪是
迷惑了你,它也迷惑了我! :-)
编码不生成字符串,而是生成字节。所以
您所引用的人在谈论一个
“编码字符串”,他应该明确表示他的意思是
个字节,或者根本不提及字串。这些都可以工作:
UTF-8编码的字节字符串b'Jalape\xc3\xb1o'
UTF-8编码的字节b'Jalape\xc3\xb1o'
对于旧版Python(2.5或更旧版本),不幸的是b''
表示法不起作用,您必须省略b
。
如果Python不将ASCII字符与
个字节,并强迫您这样写字节字符串:
UTF-8编码的字节字符串b'\x4a\x61\x6c\x61\x70\x65\xc3\xb1\x6f'
从而使ASCII字符和字节之间的区别清晰可见。
但这会大大破坏向后兼容性,因此
Python继续将ASCII字符与字节混合在一起,即使在Python中也是如此。
重要的是字节b'Jalape\xc3\xb1o'
由
如上所示,九个十六进制值。其中七个代表
ASCII字符Jalape
和o
,其中两个不是ASCII。其
含义取决于您使用的编码。
(确切地说,其他七个字节的含义也取决于
编码。幸运的是,不幸的是,大多数情况下
并非所有编码对ASCII字符都使用与ASCII相同的十六进制值
本身就是这样,所以我将不再提及此事,而是假装
字符J
始终等于十六进制字节4A
。但是现在你知道了事实。)
由于我们使用的是UTF-8编码,因此两个字节\xc3\xb1
表示
字符ñ
,也称为LATIN SMALL LETTER N WITH TILDE
。其他
编码,这两个字节将代表不同的内容。
因此,我认为原始人的意图是获取Unicode
文本字符串'Jalapeño'
。如果他们在Unicode方面很明智,他们
可以写其中之一:'Jalape\N{LATIN SMALL LETTER N WITH TILDE}o'
'Jalape\u00F1o'
'Jalape\U000000F1o'
'Jalape\xF1o' # hex
'Jalape\361o' # octal
而且要快乐。 (在Python 2中,他们需要在所有前缀前面加上u
,以使用Unicode字符串而不是字节字符串。)
但是可惜他们被那些散布神话的人误导了,
对Unicode的误解和误解
互联网,因此他们在某处查找ñ
时发现它具有
UTF-8中的双字节十六进制值c3b1
,并认为他们可以这样写:
'Jalape\xc3\xb1o'
J a l a p e à ± o
Ã
的序数值为195(十六进制的
c3
),因此
\xc3
是字符
Ã
;同样,
\xb1
是字符
±
,具有
b1
)。因此,他们发现了邪恶
# I manually encoded 'Jalapeño' to get the bytes below:
bytes = b'Jalape\xc3\xb1o'
print(bytes.decode('utf-8'))
\xc3\xb1
应该代表单个字符。然而
\xc3\xb1
可能表示Unicode字符串
'\xc3\xb1'
(在Python 2中,写为
u'\xc3\xb1'
),或者可能表示字节-
b'\xc3\xb1'
(在Python 2.5或更早版本中,不包含
b
编写)。
\xc3\xb1
表示两个字符,其序号为
0xC3
(或
0xB1
(或十进制177),即
'Ã'
和
'±'
。
\xc3\xb1
代表两个字节(嗯,嗯),这可能意味着
'簽'
(CJK UNIFIED IDEOGRAPH-7C3D)
'뇃'
(HANGUL SYLLABLE NWAES)以UTF-16(Big Endian)编码的字节
'ñ'
以UTF-8编码的字节
'ñ'
'ñ'
'Γ±'
'Jalapeño'
(带或不带
b
前缀),则
b'Jalape\xc3\xb1o'
\x4a
打印为
J
\x61
打印为
a
\x6c
打印为
l
\xc3\xb1
打印为一个字符,为您提供
ñ
py> print 'Jalape\xc3\xb1o' # terminal set to UTF-8
Jalapeño
py> print 'Jalape\xc3\xb1o' # and ISO-8859-6 (Arabic)
Jalapeأ�o
py> print 'Jalape\xc3\xb1o' # and ISO-8859-5 (Cyrillic)
JalapeУБo
Uxxxx
或
Uxxxx-xxxx
。
U+xxxx
U+xxxxx
U+xxxxxx
U+
,后面紧跟四个,五个或六个十六进制数字。
U
是
\uFFFF
\U0010FFFF
\xFF
\3FF
U+0041
,因为十六进制41 ==十进制65)表示字母
A
,
U+0000
到
U+10FFFF
,这意味着我们可以
U+0041
(字符
A
)是十六进制字节
00000041
,
41000000
,具体取决于您的计算机是Big Endian还是
U+FFFF
。
u'Jalape'
这是unicode
u
)。
U+FFFF
以上的代码点
U+FFFF
的点每个字符使用两个字节;而且只有字符串
'Jalape \xYY \xZZ o'
(空格
\xc3\xb1
应该表示
U+00F1
,而不是两个字符
U+00C3
和
U+00B1
”
U+00F1
(字符
ñ
,带波浪号的n)
c3b1
(以十六进制表示)
\xc3
\xb1
填充到Unicode字符串中
U+00C3
和
U+00B1
。
\xC3
\u00C3
的另一种方式,或者
\U000000C3
。
b'Jalape\xc3\xb1o'
b
前缀:
py> tasty = 'Jalape\xc3\xb1o' # actually bytes
py> tasty.decode('utf-8')
u'Jalape\xf1o'
py> print tasty.decode('utf-8') # oops I forgot to reset my terminal
JalapeУБo
py> print tasty.decode('utf-8') # terminal now set to UTF-8
Jalapeño
关于python - UTF8编码的字符串'Jalape\xc3\xb1o'('Jalapeño')是否包含8或9个字符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17632246/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求提供代码的问题必须表现出对所解决问题的最低限度理解。包括尝试过的解决方案、为什么它们不起作用,以及预
为什么在 C# 中添加两个 char 结果是 int 类型? 例如,当我这样做时: var pr = 'R' + 'G' + 'B' + 'Y' + 'P'; pr 变量变为 int 类型。我希望它是
下面的代码可以编译,但 char 类型的行为与 int 类型的行为不同。 特别是 cout ::ikIsX >() ::ikIsX >() ::ikIsX >() using names
我正在寻找一个正则表达式,它可以匹配长度为 1 个或多个字符但不匹配 500 的内容。这将在 Rails 路由文件中使用,特别是用于处理异常。 路线.rb match '/500', to: 'err
对于 C 编程作业,我正在尝试编写几个头文件来检查所谓的“X 编程语言”的语法。我最近才开始,正在编写第一个头文件。这是我编写的代码: #ifndef _DeclarationsChecker_h_
为什么扩展的 ascii 字符(â、é 等)被替换为 字符? 我附上了一张图片...但我正在使用 PHP 从 MySQL 中提取数据,其中一些位置有扩展字符...我使用的是 Arial 字体。 您可以
我有一个与 R 中的断线相关的简单问题。 我正在尝试粘贴,但在获取(字符/数字)之间的断线时遇到问题。请注意,这些值包含在向量中(V1=81,V2=55,V3=25)我已经尝试过这段代码: cat(p
如何将 ANSI 字符 (char) 转换为 Unicode 字符 (wchar_t),反之亦然? 是否有用于此目的的任何跨平台源代码? 最佳答案 是的,在 中你有mbstowcs()和 wcsto
函数 fromCharCode 不适用于国际 ANSI 字符。例如,对于 ID 为 192 到 223 的俄语 ANSI (cp-1251) 字符,它返回特殊字符。如何解决这个问题? 我认为,需要将A
如果不喜欢,我想隐藏 id,但不起作用 SELECT * FROM character, character_actor WHERE character.id NOT LIKE character_a
现在这个程序成功地反转了键盘输入的单词。但是我想在我反转它之前“保存”指针中的单词,所以我可以比较两者,反转的和“原始的”,并检查它们是否是回文。我还没有太多经验,可能会出现比我知道的更多的错误,但我
Memcpy 和 memcmp 函数可以接受指针变量吗? char *p; char* q; memcpy(p,q,10); //will this work? memcmp(p,q,10); //w
恐怕我对一个相当过饱和的主题的细节有疑问,我搜索了很多,但找不到一个明确的答案来解决这个特定的明显-imho-重要的问题: 使用UTF-8将byte[]转换为String时,每个字节(8bit)都变成
我有一个奇怪的问题。我需要从 stat 命令打印输出字符串。 我已经编写了获取一些信息的代码。 import glob import os for file in glob.glob('system1
我正在使用 Java 并具有其值如下所示的字符串, String data = "vale-cx"; data = data.replaceAll("\\-", "\\-\\"); 我正在替换其中的“
String urlParameters = "login=test&password=te&ff"; 我有一个String urlParams,& - 是密码的一部分,如何使其转义,从而不被识别为分
大家好,我只想从此字符串中提取第一个字母: String str = "使 徒 行 傳 16:31 ERV-ZH"; 我只想获取这些字符: 使 徒 行 傳 并且不包括 ERV-ZH 仅数
这个问题已经有答案了: Crash or "segmentation fault" when data is copied/scanned/read to an uninitialized point
所以, 我有一个字符**;它本质上是一个句子,带有指向该句子中每个单词的指针;即 'h''i''\0''w''o''r''l''d''\0''y''a''y''!''\0' 在这种情况下,我希望使用可
这个问题在这里已经有了答案: Using quotation marks inside quotation marks (12 个答案) 关闭 7 年前。 如何打印 " 字符? 我知道打印 % 符号
我是一名优秀的程序员,十分优秀!