再谈Python中的字符串与字符编码（推荐）-6ren

再谈Python中的字符串与字符编码（推荐）

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章再谈Python中的字符串与字符编码（推荐）由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

本节内容:

1.前言。

2.相关概念。

3.Python中的默认编码。

4.Python2与Python3中对字符串的支持。

5.字符编码转换。

1、前言。

Python中的字符编码是个老生常谈的话题，同行们都写过很多这方面的文章。有的人云亦云，也有的写得很深入。近日看到某知名培训机构的教学视频中再次谈及此问题，讲解的还是不尽人意，所以才想写这篇文字。一方面，梳理一下相关知识，另一方面，希望给其他人些许帮助.

Python2的默认编码是ASCII，不能识别中文字符，需要显式指定字符编码；Python3的默认编码为Unicode，可以识别中文字符.

相信大家在很多文章中都看到过类似上面这样“对Python中中文处理”的解释，也相信大家在最初看到这样的解释的时候确实觉得明白了。可是时间久了之后，再重复遇到相关问题就会觉得貌似理解的又不是那么清楚了。如果我们了解上面说的默认编码的作用是什么，我们就会更清晰的明白那句话的含义.

2、相关概念。

1. 字符与字节。

一个字符不等价于一个字节，字符是人类能够识别的符号，而这些符号要保存到计算的存储中就需要用计算机能够识别的字节来表示。一个字符往往有多种表示方法，不同的表示方法会使用不同的字节数。这里所说的不同的表示方法就是指字符编码，比如字母A-Z都可以用ASCII码表示（占用一个字节），也可以用UNICODE表示（占两个字节），还可以用UTF-8表示（占用一个字节）。字符编码的作用就是将人类可识别的字符转换为机器可识别的字节码，以及反向过程.

UNICDOE才是真正的字符串，而用ASCII、UTF-8、GBK等字符编码表示的是字节串。关于这点，我们可以在Python的官方文档中经常可以看到这样的描述"Unicode string" , " translating a Unicode string into a sequence of bytes" 。

我们写代码是写在文件中的，而字符是以字节形式保存在文件中的，因此当我们在文件中定义个字符串时被当做字节串也是可以理解的。但是，我们需要的是字符串，而不是字节串。一个优秀的编程语言，应该严格区分两者的关系并提供巧妙的完美的支持。JAVA语言就很好，以至于了解Python和PHP之前我从来没有考虑过这些不应该由程序员来处理的问题。遗憾的是，很多编程语言试图混淆“字符串”和“字节串”，他们把字节串当做字符串来使用，PHP和Python2都属于这种编程语言。最能说明这个问题的操作就是取一个包含中文字符的字符串的长度:

对字符串取长度，结果应该是所有字符串的个数，无论中文还是英文
对字符串对应的字节串取长度，就跟编码(encode)过程使用的字符编码有关了(比如：UTF-8编码，一个中文字符需要用3个字节来表示；GBK编码，一个中文字符需要2个字节来表示)

注意：Windows的cmd终端字符编码默认为GBK，因此在cmd输入的中文字符需要用两个字节表示。

 
    ? 
   
 
     
       
       
         >>>  
         # Python2 
        
 
         >>> a  
         = 
         'Hello,中国' 
         # 字节串，长度为字节个数 = len('Hello,')+len('中国') = 6+2*2 = 10 
        
 
         >>> b  
         = 
         u 
         'Hello,中国' 
         # 字符串，长度为字符个数 = len('Hello,')+len('中国') = 6+2 = 8 
        
 
         >>> c  
         = 
         unicode 
         (a,  
         'gbk' 
         )  
         # 其实b的定义方式是c定义方式的简写，都是将一个GBK编码的字节串解码（decode）为一个Uniocde字符串 
        
 
         >>>  
        
 
         >>>  
         print 
         ( 
         type 
         (a),  
         len 
         (a)) 
        
 
         (< 
         type 
         'str' 
         >,  
         10 
         ) 
        
 
         >>>  
         print 
         ( 
         type 
         (b),  
         len 
         (b)) 
        
 
         (< 
         type 
         'unicode' 
         >,  
         8 
         ) 
        
 
         >>>  
         print 
         ( 
         type 
         (c),  
         len 
         (c)) 
        
 
         (< 
         type 
         'unicode' 
         >,  
         8 
         ) 
        
 
         >>> 
        
 
     
 
   

Python3中对字符串的支持做了很大的改动，具体内容会在下面介绍.

2. 编码与解码。

先做下科普：UNICODE字符编码，也是一张字符与数字的映射，但是这里的数字被称为代码点(code point), 实际上就是十六进制的数字.

Python官方文档中对Unicode字符串、字节串与编码之间的关系有这样一段描述:

Unicode字符串是一个代码点（code point）序列，代码点取值范围为0到0x10FFFF（对应的十进制为1114111）。这个代码点序列在存储（包括内存和物理磁盘）中需要被表示为一组字节(0到255之间的值)，而将Unicode字符串转换为字节序列的规则称为编码.

这里说的编码不是指字符编码，而是指编码的过程以及这个过程中所使用到的Unicode字符的代码点与字节的映射规则。这个映射不必是简单的一对一映射，因此编码过程也不必处理每个可能的Unicode字符，例如:

将Unicode字符串转换为ASCII编码的规则很简单--对于每个代码点:

如果代码点数值<128，则每个字节与代码点的值相同
如果代码点数值>=128，则Unicode字符串无法在此编码中进行表示（这种情况下，Python会引发一个UnicodeEncodeError异常）

将Unicode字符串转换为UTF-8编码使用以下规则:

如果代码点数值<128，则由相应的字节值表示（与Unicode转ASCII字节一样）
如果代码点数值>=128，则将其转换为一个2个字节，3个字节或4个字节的序列，该序列中的每个字节都在128到255之间。

简单总结:

编码(encode)：将Unicode字符串（中的代码点)转换特定字符编码对应的字节串的过程和规则
解码(decode)：将特定字符编码的字节串转换为对应的Unicode字符串(中的代码点)的过程和规则

可见，无论是编码还是解码，都需要一个重要因素，就是特定的字符编码。因为一个字符用不同的字符编码进行编码后的字节值以及字节个数大部分情况下是不同的，反之亦然.

3、Python中的默认编码。

1. Python源代码文件的执行过程。

我们都知道，磁盘上的文件都是以二进制格式存放的，其中文本文件都是以某种特定编码的字节形式存放的。对于程序源代码文件的字符编码是由编辑器指定的，比如我们使用Pycharm来编写Python程序时会指定工程编码和文件编码为UTF-8，那么Python代码被保存到磁盘时就会被转换为UTF-8编码对应的字节（encode过程）后写入磁盘。当执行Python代码文件中的代码时，Python解释器在读取Python代码文件中的字节串之后，需要将其转换为UNICODE字符串（decode过程）之后才执行后续操作.

上面已经解释过，这个转换过程（decode，解码）需要我们指定文件中保存的字节使用的字符编码是什么，才能知道这些字节在UNICODE这张万国码和统一码中找到其对应的代码点是什么。这里指定字符编码的方式大家都很熟悉，如下所示:

 
    ? 
   
         # -*- coding:utf-8 -*-

再谈Python中的字符串与字符编码（推荐）

2. 默认编码。

那么，如果我们没有在代码文件开始的部分指定字符编码，Python解释器就会使用哪种字符编码把从代码文件中读取到的字节转换为UNICODE代码点呢？就像我们配置某些软件时，有很多默认选项一样，需要在Python解释器内部设置默认的字符编码来解决这个问题，这就是文章开头所说的“默认编码”。因此大家所说的Python中文字符问题就可以总结为一句话：当无法通过默认的字符编码对字节进行转换时，就会出现解码错误(UnicodeEncodeError).

Python2和Python3的解释器使用的默认编码是不一样的，我们可以通过sys.getdefaultencoding()来获取默认编码:

 
    ? 
   
         >>>  
         # Python2 
        
         >>>  
         import 
         sys 
        
         >>> sys.getdefaultencoding() 
        
         'ascii' 
        
         >>>  
         # Python3 
        
         >>>  
         import 
         sys 
        
         >>> sys.getdefaultencoding() 
        
         'utf-8'

因此，对于Python2来讲，Python解释器在读取到中文字符的字节码尝试解码操作时，会先查看当前代码文件头部是否有指明当前代码文件中保存的字节码对应的字符编码是什么。如果没有指定则使用默认字符编码"ASCII"进行解码导致解码失败，导致如下错误:

SyntaxError: Non-ASCII character '\xc4' in file xxx.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details 。

对于Python3来讲，执行过程是一样的，只是Python3的解释器以"UTF-8"作为默认编码，但是这并不表示可以完全兼容中文问题。比如我们在Windows上进行开发时，Python工程及代码文件都使用的是默认的GBK编码，也就是说Python代码文件是被转换成GBK格式的字节码保存到磁盘中的。Python3的解释器执行该代码文件时，试图用UTF-8进行解码操作时，同样会解码失败，导致如下错误:

SyntaxError: Non-UTF-8 code starting with '\xc4' in file xxx.py on line 11, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for details 。

3. 最佳实践。

创建一个工程之后先确认该工程的字符编码是否已经设置为UTF-8
为了兼容Python2和Python3，在代码头部声明字符编码：-*- coding:utf-8 -*-

4、Python2与Python3中对字符串的支持。

其实Python3中对字符串支持的改进，不仅仅是更改了默认编码，而是重新进行了字符串的实现，而且它已经实现了对UNICODE的内置支持，从这方面来讲Python已经和JAVA一样优秀。下面我们来看下Python2与Python3中对字符串的支持有什么区别:

Python2 。

Python2中对字符串的支持由以下三个类提供。

 
    ? 
   
         class 
         basestring 
         ( 
         object 
         ) 
        
         class 
         str 
         ( 
         basestring 
         ) 
        
         class 
         unicode 
         ( 
         basestring 
         )

执行help(str)和help(bytes)会发现结果都是str类的定义，这也说明Python2中str就是字节串，而后来的unicode对象对应才是真正的字符串.

 
    ? 
   
         #!/usr/bin/env python 
        
         # -*- coding:utf-8 -*- 
        
         a  
         = 
         '你好' 
        
         b  
         = 
         u 
         '你好' 
        
         print 
         ( 
         type 
         (a),  
         len 
         (a)) 
        
         print 
         ( 
         type 
         (b),  
         len 
         (b))

输出结果:

(<type 'str'>, 6) 。

(<type 'unicode'>, 2) 。

Python3 。

Python3中对字符串的支持进行了实现类层次的上简化，去掉了unicode类，添加了一个bytes类。从表面上来看，可以认为Python3中的str和unicode合二为一了.

 
    ? 
   
         class 
         bytes( 
         object 
         ) 
        
         class 
         str 
         ( 
         object 
         )

实际上，Python3中已经意识到之前的错误，开始明确的区分字符串与字节。因此Python3中的str已经是真正的字符串，而字节是用单独的bytes类来表示。也就是说，Python3默认定义的就是字符串，实现了对UNICODE的内置支持，减轻了程序员对字符串处理的负担.

 
    ? 
   
         #!/usr/bin/env python 
        
         # -*- coding:utf-8 -*- 
        
         a  
         = 
         '你好' 
        
         b  
         = 
         u 
         '你好' 
        
         c  
         = 
         '你好' 
         .encode( 
         'gbk' 
         ) 
        
         print 
         ( 
         type 
         (a),  
         len 
         (a)) 
        
         print 
         ( 
         type 
         (b),  
         len 
         (b)) 
        
         print 
         ( 
         type 
         (c),  
         len 
         (c))

输出结果:

<class 'str'> 2 。

<class 'bytes'> 4 。

5、字符编码转换。

上面提到，UNICODE字符串可以与任意字符编码的字节进行相互转换，如图:

再谈Python中的字符串与字符编码（推荐）

那么大家很容易想到一个问题，就是不同的字符编码的字节可以通过Unicode相互转换吗？答案是肯定的.

Python2中的字符串进行字符编码转换过程是:

字节串-->decode('原来的字符编码')-->Unicode字符串-->encode('新的字符编码')-->字节串。

 
    ? 
   
         #!/usr/bin/env python 
        
         # -*- coding:utf-8 -*- 
        
         utf_8_a  
         = 
         '我爱中国' 
        
         gbk_a  
         = 
         utf_8_a.decode( 
         'utf-8' 
         ).encode( 
         'gbk' 
         ) 
        
         print 
         (gbk_a.decode( 
         'gbk' 
         ))

输出结果:

我爱中国。

Python3中定义的字符串默认就是unicode，因此不需要先解码，可以直接编码成新的字符编码:

字符串-->encode('新的字符编码')-->字节串。

 
    ? 
   
         #!/usr/bin/env python 
        
         # -*- coding:utf-8 -*- 
        
         utf_8_a  
         = 
         '我爱中国' 
        
         gbk_a  
         = 
         utf_8_a.encode( 
         'gbk' 
         ) 
        
         print 
         (gbk_a.decode( 
         'gbk' 
         ))

输出结果:

我爱中国。

最后需要说明的是，Unicode不是有道词典，也不是google翻译器，它并不能把一个中文翻译成一个英文。正确的字符编码的转换过程只是把同一个字符的字节表现形式改变了，而字符本身的符号是不应该发生变化的，因此并不是所有的字符编码之间的转换都是有意义的。怎么理解这句话呢？比如GBK编码的“中国”转成UTF-8字符编码后，仅仅是由4个字节变成了6个字节来表示，但其字符表现形式还应该是“中国”，而不应该变成“你好”或者“China”.

前面花了很大的篇幅介绍概念和理论，后面注重实践，希望对他人有所帮助.

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持我.

原文链接：http://www.cnblogs.com/yyds/p/6171340.html 。

最后此篇关于再谈Python中的字符串与字符编码（推荐）的文章就讲到这里了,如果你想了解更多关于再谈Python中的字符串与字符编码（推荐）的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： Python3.6正式版新特性预览

文章推荐： Python WXPY实现微信监控报警功能的代码

文章推荐：轩辕剑剑之源冥系伙伴怎么搭配冥系伙伴搭配思路详解

文章推荐：轩辕剑剑之源卡玛阵容怎么搭配卡玛打法搭配详解

python - Python 中的集群或合并集群以减少组数 (Python)
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库，但没有成功。我猜它只是通过 knn 聚类
python - python 列表的子集基于同一列表的元素组，pythonically
我有一个扁平数字列表，这些数字逻辑上以 3 为一组，其中每个三元组是 (number, __ignored, flag[0 or 1])，例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
python - 激活 Python 虚拟环境并在另一个 Python 脚本中调用 Python 脚本
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
python - 在焕然一新的 Python 环境中以编程方式从 Python 内部执行 Python 文件
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
python - 从 python 脚本但在 python 脚本之外运行 python 脚本
这听起来像是谜语或笑话，但实际上我还没有找到这个问题的答案。问题到底是什么？我想运行 2 个脚本。在第一个脚本中，我调用另一个脚本，但我希望它们继续并行，而不是在两个单独的线程中。主要是我不希望第
python - 使用不同的 python 从 python 运行 python 脚本
我有一个带有 python 2.5.5 的软件。我想发送一个命令，该命令将在 python 2.7.5 中启动一个脚本，然后继续执行该脚本。我试过用 #!python2.7.5 和http://re
python - 为什么从 Python 命令行调用 Python 时 Python 无法找到并运行我的脚本？
我在 python 命令行(使用 python 2.7)中，并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹，使用: os.chdir("
python - 使用动态版本的 Python 执行嵌入的 Python 代码时出现致命的 Python 错误
剧透:部分解决(见最后)。以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
python - python 中识别 python 数组或列表中最大累积差异的最快方法是什么？
假设我有以下列表，对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
python - (Python) 通过单选按钮 python 更新背景
所以我试图在选择某个单选按钮时更改此框架的背景。我的框架位于一个类中，并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
python - python 中的字符串与正则表达式比较在 python 中失败
我正在尝试将字符串与 python 中的正则表达式进行比较，如下所示， #!/usr/bin/env python3 import re str1 = "Expecting property name
python - python 如何加载Boost.Python 库？
考虑以下原型(prototype) Boost.Python 模块，该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
python - python 检查模块 python 的问题
如何编写一个程序来“识别函数调用的行号？” python 检查模块提供了定位行号的选项，但是， def di(): return inspect.currentframe().f_back.f_l
python - 系统 python 与用户 python
我已经使用 macports 安装了 Python 2.7，并且由于我的 $PATH 变量，这就是我输入 $ python 时得到的变量。然而，virtualenv 默认使用 Python 2.6，除
python - [Python] : Python re. 长字符串行的搜索速度优化
我只想问如何加快 python 上的 re.search 速度。我有一个很长的字符串行，长度为 176861(即带有一些符号的字母数字字符)，我使用此函数测试了该行以进行研究: def getExe
python - 编辑字符串 python 正则表达式 python
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
python - Python 映射中的副作用(Python "do" block )
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。告
python - 使用其值逻辑组合两个 python 列表 - Python
我想用 Python 将两个列表组合成一个列表，方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
python - Boost.Python python 链接错误
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
python - 在 Python 中仅使用内置库制作一个基本的网络抓取工具 - Python
学习 Python，我正在尝试制作一个没有任何第 3 方库的网络抓取工具，这样过程对我来说并没有简化，而且我知道我在做什么。我浏览了一些在线资源，但所有这些都让我对某些事情感到困惑。 html 看起来

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

再谈Python中的字符串与字符编码（推荐）