- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
虽然标题是一个问题,但简短的回答显然是否定的。我已经在 shell 中尝试过了。真正的问题是为什么?ps:string是一些非ascii字符,比如中文,XXX是string的当前编码
>>> u'中文' == '中文'.decode('gbk')
False
//The first one is u'\xd6\xd0\xce\xc4' while the second one u'\u4e2d\u6587'
例子如上。我正在使用 windows 中文 simplyfied。默认编码是gbk,python shell也是。我得到了两个不相等的 unicode 对象。
更新
a = '中文'.decode('gbk')
>>> a
u'\u4e2d\u6587'
>>> print a
中文
>>> b = u'中文'
>>> print b
ÖÐÎÄ
最佳答案
是的,如果编解码器成功解码字节,str.decode()
通常返回一个unicode
字符串。但如果使用了正确编解码器,这些值只会代表相同的文本。
您的示例文本没有使用正确的编解码器;你有 GBK 编码的文本,解码为 Latin1:
>>> print u'\u4e2d\u6587'
中文
>>> u'\u4e2d\u6587'.encode('gbk')
'\xd6\xd0\xce\xc4'
>>> u'\u4e2d\u6587'.encode('gbk').decode('latin1')
u'\xd6\xd0\xce\xc4'
值确实不相等,因为它们不是相同的文本。
再次重申,使用正确的编解码器很重要;不同的编解码器将导致截然不同的结果:
>>> print u'\u4e2d\u6587'.encode('gbk').decode('latin1')
ÖÐÎÄ
我将示例文本编码为 Latin-1,而不是 GBK 或 UTF-8。解码可能已成功,但生成的文本不可读。
另请注意,粘贴非 ASCII 字符仅有效,因为 Python 解释器已正确检测到我的终端编解码器。我可以将浏览器中的文本粘贴到我的终端,然后终端将文本作为 UTF-8 编码数据传递给 Python。因为 Python 已经询问终端使用了什么编解码器,所以它能够从 u'....'
Unicode 文字值再次解码回来。当打印 encoded.decode('utf8')
unicode
结果时,Python 再次自动编码数据以适应我的终端编码。
要查看 Python 检测到的编解码器,请打印 sys.stdin.encoding
:
>>> import sys
>>> sys.stdin.encoding
'UTF-8'
在处理不同的文本来源时,必须做出类似的决定。例如,从源文件中读取字符串文字需要您仅使用 ASCII(对其他所有内容使用转义码),或者在文件顶部为 Python 提供明确的编解码器符号。
我建议你阅读:
Pragmatic Unicode作者:内德·巴切尔德
更全面地了解 Unicode 的工作原理以及 Python 如何处理 Unicode。
关于python - u'string'是否与 'string' .decode ('XXX' 相同),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20973745/
我从我的服务器获取此 IP,例如: "/177.127.101.68:53964" "/201.80.15.100:54263" "/177.67.38.54:51309" 我需要它就像“177.12
终端抛出此错误意味着什么以及如何解决它? packet_write_wait: Connection to xxx.xxx.xxx.xxx: Broken pipe 这是今天刚刚发生的事情。正常工作一
这应该是非常简单的,但我不能让它为我的生活工作。我只是想远程连接到我的MySQL服务器。。连接方式:。运作良好,但正在尝试:。失败,并显示以下错误:。错误1130(00000):不允许主机‘xxx.x
正在尝试将坞站映像推送到私有坞站存储库。但收到如下错误:“拨号tcp:lookup xxx.xxx:没有这样的主机”。我已正确登录到存储库,并且构建成功。。以下命令用于将映像推送到私有repo:sud
这个问题已经有答案了: Android 8: Cleartext HTTP traffic not permitted (37 个回答) 已关闭 3 年前。 这是 list 文件
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: A comprehensive regex for phone number validation 什么是正
尝试将 docker 镜像推送到私有(private) docker 存储库。但出现类似错误:“dial tcp:lookup xxx.xxx.xxx.xxx: no such host”。我已正确登
我搜索了 StackOverflow,并在尝试打开引用不同项目中的 UserControl 的表单时发现了类似的问题。 我明白 To prevent possible data loss before
我收到的错误是 com.sun.xml.ws.client.ClientTransportException: HTTP transport error: java.io.IOException: H
我需要用 preg_match 检查输入,它必须是这种格式:xxx.xxx.xxx block 的数量可以变化......这些都是有效输入的例子: 001 00a.00a 0fg.001 aaa.aa
在所有构建过程完成且没有任何错误后,我遇到了失败。 我不知道为什么会出现以下错误。 即使所有测试均已成功完成,此错误仍将作业状态标记为失败。致命:来自 socaautovm1.xxx.local/19
我有一个单独托管的 Postgres 数据库,我正试图将其与我的 Phoenix 应用程序一起使用。我的 prod 配置是: config :my_app, MyApp.Repo, adapter
我尝试使用 terraform 在 Azure 中创建负载均衡器,但收到此错误: Error: creating/updating Load Balancer "lbclassic" (Resourc
Java中是否有一个类可以让您将“102203345.32”之类的数字格式化为“102.203.345,32”并返回字符串类型? 我想获得一个字符串,其中千位由“.”分隔。小数点之间用逗号“,”分隔。
大家好,我已经通过大量在线编码来获取我的 android 手机 IP 地址大多数都以结尾 if (!inetAddress.isLoopbackAddress()) {
首先,我知道 this question .由于我既没有使用 maven 也没有使用 jenkins,因此无法使用提供的解决方案。 在使用 sonar-runner 分析我的项目时,我收到以下警告:
我的脚本有些问题。它应该通过代理打开一个网站,但我总是遇到这个错误,我正在尝试使用几个代理... 它会是什么? Traceback (most recent call last): File "C
我正在使用远程数据库在 PHP 下开发 Web 应用程序,其中我有以下测试脚本: try { $dbh = new PDO('mysql:host=XXX.XXX.XXX.XXX;dbname
我正在尝试使用 php-facebook-sdk 并借助 curl Facebook API 创建广告。 我已经使用 curl 上传了我的视频,它返回了一个 ID。现在,该视频 ID 将用于添加广告,
首先,这是一个编程问题,因为我正在尝试设置与生产服务器一起运行的测试/QA 服务器。 其次,是的,我应该将其发布在 Serverfault 上,但我尝试使用三个不同的 OpenID 提供程序登录,每次
我是一名优秀的程序员,十分优秀!