python 2.X : Why Can't I Properly Handle Unicode?-6ren

python 2.X : Why Can't I Properly Handle Unicode?

转载作者：太空狗更新时间：2023-10-29 21:35:20

26

4

我已经尝试了一段时间 Python 2.X 和 unicode。但我已经到了没有意义的地步。

第一个问题:

一些代码会清楚地解释我的意思。 txt变量在这里模拟pyqt4的翻译功能。它返回一个 QString。

# -*- coding: utf-8 -*-
from PyQt4 import QtCore
txt = QtCore.QString(u'può essere / sarà / 日本語')
txtUnicode1 = unicode(txt, errors='replace')
txtUnicode2 = unicode(txt)

当 print()-ing 两个 unicode 字符串时，我得到:

pu� essere / sar� / ???

può essere / sarà / 日本語

当然我可以通过使用 QString.__str__() 得到同样的东西，但我的意思是理解，所以为了争论我想知道:

为什么 errors='replace' 替换所有编码字符它应该只在出现错误时才这样做？
仅使用 unicode(QString) 来生成 QString 有问题吗转换成适合显示的 unicode 字符串？

第二个问题:

我正在尝试理解编码/解码。

>>> a = u'può essere / sarà / 日本'
>>> b = a.encode('utf-8')
>>> a
u'pu\xf2 essere / sar\xe0 / \u65e5\u672c'
>>> b
'pu\xc3\xb2 essere / sar\xc3\xa0 / \xe6\x97\xa5\xe6\x9c\xac'
>>> print a
può essere / sarà / 日本
>>> print b
può essere / sarà / 日本

print 是否解码 a 和 b？
Encoded-encoded UTF-8 应该是完全解码？我不应该打印编码字符串吗？
编码和解码的 unicode 字符串有什么区别？

最佳答案

让我们启动旧的备用数据库 IDLE，看看我们是否可以复制您所看到的。

IDLE 1.1.4      
>>> a = u'può essere / sarà / 日本'

Unsupported characters in input
>>> a = u'pu\xf2 essere / sar\xe0 / \u65e5\u672c'
>>> b = a.encode('utf-8')
>>> a
u'pu\xf2 essere / sar\xe0 / \u65e5\u672c'
>>> b
'pu\xc3\xb2 essere / sar\xc3\xa0 / \xe6\x97\xa5\xe6\x9c\xac'
>>> print a
può essere / sarà / 日本
>>> print b
puÃ² essere / sarÃ  / æ—¥æœ¬

请注意，当我打印 b 时，我看到了不同的东西。这是因为我的 shell (IDLE) 不会将字节序列解释为 UTF-8 文本，而是使用我的平台字符编码 cp1252。

让我们仔细检查一下。

>>> import sys
>>> sys.stdout.encoding
'cp1252'

是的，这就是为什么我的行为与您不同。因为您的 sys.stdout.encoding 是 UTF-8。这就是为什么尽管 a 和 b 是完全不同的值，但它们显示相同的原因；您的终端将字节解释为 UTF-8。

所以你可能想知道我们是否可以将我们的 unicode 字符序列 a 转换为可以在 IDLE 中显示的字节序列

>>> c = a.encode('cp1252') 

Traceback (most recent call last):
  File "<pyshell#19>", line 1, in -toplevel-
    c = a.encode('cp1252') #uses default encoding
  File "C:\Python24\lib\encodings\cp1252.py", line 18, in encode
    return codecs.charmap_encode(input,errors,encoding_map)
UnicodeEncodeError: 'charmap' codec can't encode characters in position 20-21: character maps to <undefined>

答案是否定的； cp1252不支持将汉字编码为字节。

关于 python 2.X : Why Can't I Properly Handle Unicode?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9619606/

26

4

0

文章推荐： c# - 无法加载文件或程序集 SMDiagnostics.dll

文章推荐： Python C API : Using PyEval_EvalCode

文章推荐： c# - 使用生成操作访问文件 : Content

文章推荐： python - 蜘蛛内部的 Scrapyd jobid 值

python - tensorflow - 线性回归 : Not proper able to do proper plotting
我一直在使用 Tensorflow 解决线性回归问题。我得到一条平坦的曲线 pred_y。我应该如何将我的曲线与观察的训练示例拟合？这是我的 tensorflow 代码: # coding: utf
SQL 错误 : ORA-00933: SQL command not properly ended 00933. 00000 - "SQL command not properly ended"
我浏览了这个网站，找不到类似的场景。我正在尝试运行以下代码 SELECT st.storeid, s.noofitems FROM salestrnsaction AS st, soldvia AS
Python:用类变量替换全局变量是不是 'proper'
请善待我，我是 Python 初学者:-) 现在，我发现编写 Python 程序的“最佳实践”是将主代码包装在“main”函数中，并执行 if "__main__"== __name__: 测试调用“
jquery - "proper"将控制权传递给新页面的方法？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎与 help center 中定义的范围内的编程无关。 . 已关闭 9 年前。 Improve
javascript - "Proper"在Javascript中继承引用值的方式？
这个问题在这里已经有了答案: What is the reason to use the 'new' keyword at Derived.prototype = new Base (6 个答案)
java - "proper"tomcat认证登录页面
我正尝试在 tomcat 上为我的 jersey webapp 创建一个用户登录页面，它的行为与网络上的所有其他页面一样。也就是说，用户会看到一个漂亮的登录页面而不是弹出窗口(如 BASIC tomc
java - "properly"接到电话时如何发送短信？
我正在尝试让 Android 服务监听来电，当确实有来电时，获取来电号码并向其发送短信。在我的服务中，我制作了一个PhoneStateListener: TelephonyManager tMana
mysql - "Proper"存放MySQL数据库描述的地方
是否有适当的地方来存储数据库的高级描述？类似于“此数据库用于存储 XYZ 以供 ABC 使用”之类的内容。这不一定是人们需要查询的信息，而是对管理系统的人有用的信息(即几个月前我试图记住几个月前我试图
javascript - Vue列表排序后不重新渲染 "properly"
下面的排序逻辑非常简单: 1. 标记不包含所选排序值的产品 2. 按所选排序值的数量降序对产品进行排序 3.隐藏不包含所选排序值的产品我添加了简单的排序逻辑，它可以对元素进行排序(可以在控制台中预期
c++ - "Proper"用VS2010管理文件
这个问题在这里已经有了答案: Where does Visual Studio look for C++ header files? (7 个答案) 关闭 9 年前。所以，我在 VS2010 中开
连接到MSMQ， "proper"方式？
我正在尝试连接到 MSMQ 并发送一些消息。不幸的是，项目中有关于如何做到这一点的“先前艺术”，我应该模仿它。之前的应用程序的连接方式如下: if (MSMQ in workgroup mode) {
C++ "Proper"异常处理方式
我正在编写一个可能会被其他人使用的 ROS 节点，这就是我想要遵循通用指南的原因。有时我想为异常添加额外的信息，但我不知道该怎么做。这是一个方便的示例: 我的 ROS 节点使用 boost 库连接到串
ruby - "Proper"以字符串形式输出变量的方法
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 4 年前。 Improve
Django-TinyMCE : How to configure it properly?
我在摆弄 django-tinyMCE并注意到一些配置没有得到应用。这是我的 settings.py 中的代码 TINYMCE_DEFAULT_CONFIG = { 'theme' : 'ad
language-agnostic - "Proper"让客户或经理对软件估计进行现实检查的方法
回顾我过去的项目，我经常遇到这个: 一位客户或经理向我提出一项任务并要求进行估算。我估计说 24 小时。他们还询问了业务分析师，据我所知，他们的经验大多是非技术性的。他们给出的估计是 16 小时。最后
sql - 如何使用:setvar properly?
我使用以下方式调用几个sql文件: :r C:\Scripts\Script1.sql :r C:\Scripts\Script2.sql :r C:\Scripts\Script3.sql 我对 :
variables - AS3中初始化类变量的 "proper"位置在哪里
在类构造函数中初始化 AS3 类变量“更好”吗？或者当我在类的顶部声明它们时，我可以将它们初始化为默认值吗？我问这个问题是因为当有很多类变量时，在一个地方声明它们然后在另一个地方初始化它们似乎效率很低
javascript - 等号 :() doesn't work properly
我有一个代码: $("#button").click(function () { for (var i = 0; i < 4; i++) {
localization - 是否有列出语言的 "proper"顺序？
我们的应用程序正在被翻译成多种语言，我们需要一个组合框来列出可能的语言。我们希望使用该语言的语言名称(例如，Français 表示法语)。列出这些语言是否有任何“正确”的顺序？我们是否根据他们的
Emacs-流浪汉 : Not working properly
我正在尝试在 Ubuntu 12.04 中使用 Tramp/Emacs-23 来编辑远程主机文件。我的远程主机有两步验证 (RSA+Passwd)。我通过 .ssh/config 使用多路复用来确保

首页

博学

6Ren·AI

商城

python 2.X : Why Can't I Properly Handle Unicode?