gpt4 book ai didi

python - 为什么\x00 没有被 repr 转换为\0

转载 作者:太空狗 更新时间:2023-10-30 02:01:10 25 4
gpt4 key购买 nike

这是关于 Python 的 repr 的一个有趣的怪事:

制表符\x09表示为\t。但是,此约定不适用于空终止符。

为什么 \x00 表示为 \x00,而不是 \0

示例代码:

# Some facts to make sure we are on the same page
>>> '\x31' == '1'
True
>>> '\x09' == '\t'
True
>>> '\x00' == '\0'
True

>>> x = '\x31'
>>> y = '\x09'
>>> z = '\x00'
>>> x
'1' # As Expected
>>> y
'\t' # Okay
>>> z
'\x00' # Inconsistent - why is this not \0

最佳答案

简短的回答:因为这不是 使用的特定转义。字符串表示仅使用单字符转义符 \\\n\r\t、(加上 \'"' 字符都存在时)因为对这些有明确的测试。

其余的要么被认为是可打印的并按原样包含,要么使用更长的转义序列包含(取决于 Python 版本和字符串类型,\xhh\uhhhh\Uhhhhhhhhh,始终使用符合值的 3 个选项中最短的一个)。

此外,在生成 repr() 输出时,对于由空字节后跟来自 '1'digit 组成的字符串一直到 '7'(所以 bytes([0x00, 0x49])bytes([0x00, 0x4A]) 等),您不能只在输出中使用 \0 而不必转义后面的数字。 '\01' 是单个八进制转义序列,与 '\x001' 的值不同,后者是两个字节。虽然强制输出始终使用三个八进制数字(例如 '\0001')可能是一种解决方法,但坚持使用标准化、更简单的转义序列格式会更简单。向前扫描以查看下一个字符是否为八进制数字并且切换输出样式只会产生令人困惑的输出(想象一下关于 SO 的问题:What is the difference between '\x001' and >'\0Ol'?)

输出总是一致的。除了单引号(可以与 '\' 一起出现,具体取决于 " 字符的存在),Python 将始终使用给定代码点的转义序列样式相同

如果您想研究产生输出的代码,可以在 Objects/unicodeobject.c unicode_repr() function 中找到 Python 3 str.__repr__ 实现。 ,它使用

/* Escape quotes and backslashes */
if ((ch == quote) || (ch == '\\')) {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, ch);
continue;
}


/* Map special whitespace to '\t', \n', '\r' */
if (ch == '\t') {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, 't');
}
else if (ch == '\n') {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, 'n');
}
else if (ch == '\r') {
PyUnicode_WRITE(okind, odata, o++, '\\');
PyUnicode_WRITE(okind, odata, o++, 'r');
}

用于单字符转义,然后在下面进行额外检查更长的转义。对于 Python 2,一个 similar but shorter PyString_Repr() function做同样的事情。

关于python - 为什么\x00 没有被 repr 转换为\0,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52896603/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com