python - 将 Unicode 与字符串 : print '£' + '1' works, 连接但打印 '£' + u'1' 会抛出 UnicodeDecodeError-6ren

python - 将 Unicode 与字符串 : print '£' + '1' works, 连接但打印 '£' + u'1' 会抛出 UnicodeDecodeError

转载作者：太空狗更新时间：2023-10-29 20:16:49

25

4

我观察到以下情况:

>>> print '£' + '1'
£1
>>> print '£' + u'1'
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> print u'£' + u'1'
£1
>>> print u'£' + '1'
£1

为什么 '£' + '1' 有效而 '£' + u'1' 无效？

我查看了类型:

>>> type('£' + '1')
<type 'str'>
>>> type('£' + u'1')
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 0: ordinal not in range(128)
>>> type(u'£' + u'1')
<type 'unicode'>

这也让我很困惑。如果 '£' + '1' 是 str 而不是 unicode，为什么它能在我的终端上正确打印？它不应该打印类似 '\xc2\xa31' 的内容吗？

添加到组合中，我还观察到以下内容:

>>> u'£' + '1'
u'\xa31'
>>> type('1')
<type 'str'>
>>> type(u'£')
<type 'unicode'>
>>> print u'£' + '1'
£1

为什么 u'£' + '1' 不能正确打印出 £ 符号，而 print u'£' + '1' 是吗？是不是因为前者用的是repr，而后者用的是str？

此外，unicode 和 str 的串联如何在这种情况下起作用，但在 '£' + u'1' 案例？

 
  
   最佳答案  
  
  
  
  您正在混合对象类型。
  '£' 是一个字节串，包含编码数据。这些字节恰好代表您的终端或控制台中的井号既不存在也不存在，它可能只是图像中的像素。您的终端或控制台配置为生成和接受 UTF-8 数据，因此当以十六进制表示时，该字节串的实际内容是两个字节 C2 和 A3。 另一方面，
  u'1' 是一个 Unicode 字符串。它是明确的文本数据。如果您想将其他数据连接到它，它也应该是 Unicode。如果您尝试这样做，Python 2 将使用默认的 ASCII 编解码器自动将 str 字节解码为 Unicode。
  但是，'£' 字节串不能解码为 ASCII。它可以解码为UTF-8；显式解码字节，因为我们在这里知道正确的编解码器: 
  print '£'.decode('utf8') + u'1'

  将字节写入终端或控制台时，是您的终端或控制台 解释字节并理解它们。如果您将 unicode 对象写入终端，sys.stdout 对象负责编码，将文本转换为您的终端或控制台可以理解的字节。
  这同样适用于接受输入； sys.stdin 流产生字节，当您使用 u'£' 语法创建 Unicode 对象时，Python 可以透明地解码这些字节。您在键盘上键入字符，它会被终端或控制台转换为 UTF-8 字节，并写入 Python 进行解释。
  用 print 编写 '\xc2\xa3' 是一个巧合。您可以获取 unicode 对象，将其编码为不同的编解码器，并以垃圾输出结束: 
  >>> print u'£1'.encode('latin-1')
?1

  我的 Mac 终端将为 £ 符号写入的数据转换为 ?，因为 A3 字节(井号的 Latin-1 代码点)不在解释为 UTF-8 时映射到任何内容。
  Python 根据 locale.getpreferredencoding() function 确定终端或控制台编解码器，您可以通过 sys.stdout.encoding 和 sys.stdin.encoding 属性观察您的终端或控制台使用的通信内容: 
  >>> import sys
>>> sys.stdout.encoding
'UTF-8'

  最后但同样重要的是，您不应将打印 与解释器在交互模式下回显的表示相混淆。解释器使用 repr() 函数显示表达式的结果，该函数是一种调试工具，它尝试尽可能地生成 Python 文字符号，仅 ASCII 字符。对于 Unicode 值，这意味着任何不可打印、非 ASCII 字符 都使用转义序列反射(reflect)。这使得该值适用于复制和粘贴，而无需支持 ASCII 的介质。
  str 的 repr() 结果使用 \n 作为换行符，例如，\xhh 字节的十六进制转义没有专用转义序列，在可打印范围之外。此外，对于 unicode 对象，Latin-1 范围之外的代码点根据是否使用 \uhhhh 和 \Uhhhhhhhh 转义序列表示它们是基本多语言平面的一部分: 
  >>> u'''\
... A multiline string to show newlines
... can contain £ latin characters
... or emoji 💩!
... '''
u'A multiline string to show newlines\ncan contain \xa3 latin characters\nor emoji \U0001f4a9!\n'
>>> print _
A multiline string to show newlines
can contain £ latin characters
or emoji 💩!

   
  
  
  关于python - 将 Unicode 与字符串 : print '£' + '1' works, 连接但打印 '£' + u'1' 会抛出 UnicodeDecodeError，我们在Stack Overflow上找到一个类似的问题：  https://stackoverflow.com/questions/31771758/

25

4

0

文章推荐： c# - Visual Studio 调试日志(如 Android 中的 logcat)？

文章推荐： python - 如何理解 Python 中的表达式列表

文章推荐： python - 新的 jupyter notebook 中的 sympy pretty printing 坏了吗？

QTCreator 的集成表单编辑器不会加载自定义小部件插件(Designer 会)
尝试使用集成到 QTCreator 的表单编辑器，但即使我将插件放入 QtCreator.app/Contents/MacOS/designer 也不会显示。不过，相同的 dylib 文件确实适用于独
java - 会 this.method2();跳过返回值？
在此代码示例中。 “this.method2();”之后会读到什么？在返回returnedValue之前会跳转到method2()吗？ public int method1(int returnedV
java - Gradle 不会解析依赖关系(Maven 会)
我的项目有通过gradle配置的依赖项。我想添加以下依赖项: compile group: 'org.restlet.jse', name: 'org.restlet.ext.apispark', v
polymer - polymer 会 build 更多现成可用的组件吗？
我将把我们基于 Windows 的客户管理软件移植到基于 Web 的软件。我发现 polymer 可能是一种选择。但是，对于我们的使用，我们找不到 polymer 组件具有表格 View 、下拉菜单
java - 从项目文件夹中读取文件，eclipse 会，但终端不会
我的项目文件夹 Project 中有一个文件夹，比如 ED 文件夹，当我在 Eclipse 中指定在哪里查找我写入的文件时 File file = new File("ED/text.txt"); e
javascript - jQuery 动画背景位置不会改变但 css 会
这是奇怪的事情，这个有效: $('#box').css({"backgroundPosition": "0px 250px"}); 但这不起作用，它只是不改变位置: $('#box').animate
javascript - 为什么按位运算符 OR 会 chop 此示例中的值？
这个问题在这里已经有了答案: Why does OR 0 round numbers in Javascript? (3 个答案) 关闭 5 年前。 Mozilla JavaScript Guide
c - strcmpi 代码不会编译但 strcmp 会？
这个问题在这里已经有了答案: Is the function strcmpi in the C standard libary of ISO? (3 个答案) 关闭 8 年前。我有一个问题，为什么
mysql - MySQL 会/是否支持 DATETIMEOFFSET？
我目前使用的是共享主机方案，我不确定它使用的是哪个版本的 MySQL，但它似乎不支持 DATETIMEOFFSET 类型。是否存在支持 DATETIMEOFFSET 的 MySQL 版本？或者有计划
java - CDI 会(或应该)提供包限定符吗？
研究 Seam 3，我发现 Seam Solder 允许将 @Named 注释应用于包 - 在这种情况下，该包中的所有 bean 都将自动命名，就好像它们符合条件一样@Named 他们自己。我没有看到
arrays - `removeLast` 会 swift 减少数组的容量吗？
我知道 .append 偶尔会增加数组的容量并形成数组的新副本，但 .removeLast 会逆转这种情况并减少容量通过复制到一个新的更小的数组来改变数组？最佳答案否(或者至少如果是，则它是一个错
ruby - Ruby 会*快*吗？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - noexcept 会 boost 性能吗？
noexcept 函数说明符是否旨在 boost 性能，因为生成的对象中可能没有记录异常的代码，因此应尽可能将其添加到函数声明和定义中？我首先想到了可调用对象的包装器，其中 noexcept 可能会产
Angularjs Promise.all 不会更新范围，而 $q.all 会
我正在使用 Angularjs 1.3.7，刚刚发现 Promise.all 在成功响应后不会更新 angularjs View ，而 $q.all 会。由于 Promises 包含在 native
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用
haskell - 为什么 Haskell 会(显然)不一致地推断出特定类型？
我正在编写一个玩具(物理)矢量库，并且遇到了 GHC 坚持认为函数应该具有 Integer 的问题。是他们的类型。我希望向量乘以向量以及标量(仅使用 * )，虽然这可以通过仅使用 Vector 来实现
email - Swiftmailer 不会发送邮件，但是 mail() 会
PHP 的 mail() 函数发送邮件正常，但 Swiftmailer 的 Swift_MailTransport 不起作用! 这有效: mail('user@example.com', 'test
PHP 脚本不会转储 SQL 但 phpMyAdmin 会
我尝试通过 php 脚本转储我的数据，但没有命令行。所以我用 this script 创建了我的 .sql 文件然后我尝试使用我的脚本: $link = mysql_connect($host, $u
python sqlite3 不会执行连接，但单独的 sqlite3 会
使用 python 2.6.4 中的 sqlite3 标准库，以下查询在 sqlite3 命令行上运行良好: select segmentid, node_t, start, number,title
javascript - 为什么移动 0 会 chop 小数？
我最近发现了这段JavaScript代码: Math.random() * 0x1000000 10.12345 10.12345 >> 0 10 > 10.12345 >>> 0 10 我使用

首页

博学

6Ren·AI

商城

python - 将 Unicode 与字符串 : print '£' + '1' works, 连接但打印 '£' + u'1' 会抛出 UnicodeDecodeError