string - Python 对 shell 字符串的处理-6ren

string - Python 对 shell 字符串的处理

转载作者：行者123 更新时间：2023-12-04 22:59:07

27

4

我仍然不完全理解 python 的 unicode 和 str 类型是如何工作的。注意:我正在使用 Python 2，据我所知，Python 3 对同一问题有完全不同的方法。

我所知道的 :
str是一种较旧的野兽，它保存由历史迫使我们使用的太多编码方式之一编码的字符串。
unicode是使用包含所有可能字符、表情符号、狗屎小图片等的巨大表格来表示字符串的更标准化方式。
decode函数将字符串转换为 unicode，encode反过来。

如果我在 python 的 shell 中，只需说:

>>> my_string = "some string"

然后 my_string是 str在 ascii 中编码的变量(并且，因为 ascii 是 utf-8 的子集，它也被编码在 utf-8 中)。

因此，例如，我可以将其转换为 unicode通过说其中一行来变量:

>>> my_string.decode('ascii')
u'some string'  
>>> my_string.decode('utf-8')
u'some string'

我所不知道的 :

Python 是如何处理shell 中传递的非ascii 字符串的，知道了这一点，保存单词 "kožušček" 的正确方法是什么？ ?

例如，我可以说

>>> s1 = 'kožušček'

在这种情况下 s1变成 str我无法转换为 unicode 的实例:

>>> s1='kožušček'
>>> s1
'ko\x9eu\x9a\xe8ek'
>>> print s1
kožušček
>>> s1.decode('ascii')

Traceback (most recent call last):
  File "<pyshell#23>", line 1, in <module>
    s1.decode('ascii')
UnicodeDecodeError: 'ascii' codec can't decode byte 0x9e in position 2: ordinal not in range(128)

现在，我自然无法用 ascii 解码字符串。，但是我应该使用什么编码？毕竟我的 sys.getdefaultencoding()返回 ascii ! Python 使用哪种编码来编码 s1当馈线时 s1=kožušček ?

我的另一个想法是说

>>> s2 = u'kožušček'

但是，当我打印 s2 时，我有

>>> print s2
kouèek

这意味着 Python 丢失了一个完整的字母。谁可以给我解释一下这个？

最佳答案

str对象包含字节。这些字节代表什么 Python 并没有规定。如果您生成了与 ASCII 兼容的字节，则可以将它们解码为 ASCII。如果它们包含表示 UTF-8 数据的字节，它们可以被解码。如果它们包含表示图像的字节，那么您可以解码该信息并在某处显示图像。当您使用 repr()在 str object Python 将保留任何可 ASCII 打印的字节，其余的将转换为转义序列；即使在仅 ASCII 的环境中，这也使调试此类信息变得实用。

运行交互式解释器的终端或控制台将字节写入 stdin键入时 Python 从中读取的流。这些字节根据该终端或控制台的配置进行编码。

在您的情况下，您的控制台很可能将您键入的输入编码为 Windows 代码页。您需要找出确切的代码页并使用该编解码器来解码字节。代码页 1252 似乎适合:

>>> print 'ko\x9eu\x9a\xe8ek'.decode('cp1252')
kožušèek

当您打印这些相同的字节时，您的控制台正在读取这些字节并在它已经配置的相同编解码器中解释它们。

Python 可以告诉你它认为你的控制台设置了什么编解码器；它尝试为 Unicode 文字检测此信息，其中必须为您解码输入。它使用 locale.getpreferredencoding() function确定这一点，以及 sys.stdin和 sys.stdout对象有一个 encoding属性;我的设置为UTF-8:

>>> import sys
>>> sys.stdin.encoding
'UTF-8'
>>> import locale
>>> locale.getpreferredencoding()
'UTF-8'
>>> 'kožušèek'
'ko\xc5\xbeu\xc5\xa1\xc3\xa8ek'
>>> u'kožušèek'
u'ko\u017eu\u0161\xe8ek'
>>> print u'kožušèek'
kožušèek

因为我的终端已配置为 UTF-8 并且 Python 已检测到这一点，使用 Unicode 文字 u'...'作品。数据由 Python 自动解码。

我不知道为什么你的控制台丢失了一整封信；我必须访问您的控制台并进行更多实验，请参阅 print repr(s2) 的输出，并测试 0x00 和 0xFF 之间的所有字节，看看这是在控制台的输入端还是输出端。

我建议你阅读 Python 和 Unicode:

Pragmatic Unicode作者:内德·巴切尔德

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)作者:乔尔·斯波尔斯基

Python Unicode HOWTO

关于string - Python 对 shell 字符串的处理，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31717911/

27

4

0

文章推荐： ruby-on-rails - Rails 4 子域不适用于生产

文章推荐： ansible - 在嵌套的剧本之间传递变量

文章推荐： prolog - 使用 prolog 格式谓词打印到文件

shell - 从子 shell 退出 shell
我相信我在子 shell 中调用 exit 会导致我的程序继续: #!/bin/bash grep str file | while read line do exit 0 done
shell - 从子 shell 退出 shell
我相信我在子 shell 中调用 exit 会导致我的程序继续: #!/bin/bash grep str file | while read line do exit 0 done
shell - 将变量从一个 shell 脚本导出到另一个 shell 脚本
我有几个脚本，它们的第一部分看起来是一样的。这部分的功能是识别脚本在哪台机器上运行并相应地设置几个变量。它看起来像这样: ENV=`echo $LOGNAME | cut -c1-8` if
shell - 从一个 Shell 脚本运行多个 Shell 脚本
这是我正在尝试做的事情。我有 4 个 shell 脚本。脚本 1 需要先运行，然后是 2，然后是 3，然后是 4，并且它们必须按此顺序运行。脚本 1 需要运行(并在后台等待)2 才能正常运行，但是脚本
shell - 捕获从另一个 shell 脚本调用的 shell 脚本的输出
我有一个名为 a.sh 的脚本，其中的内容是: //a.sh: #!/bin/bash temp=0 while [ "$temp" -ne 500 ] do echo `date`
shell - 使用 shell() 执行多个 shell 命令的推荐方法
在snakemake中，使用shell()函数执行多个命令的推荐方式是什么？最佳答案您可以调用shell()多次内run规则块(规则可以指定 run: 而不是 shell: ): rule pro
shell - 将一个 shell 脚本的所有参数传递给另一个 shell 脚本
我有一个 shell 脚本，我向其中传递了一些参数。Test1.sh -a 1 -b 2 -c“一二三” 在 Test1.sh 中，我按以下方式调用另一个 shell 脚本。Test2.sh $* 我
shell - 我可以从另一个 shell 脚本调用一个 shell 脚本的函数吗？
我有 2 个 shell 脚本。第二个shell脚本包含以下函数第二个.sh func1 func2 first.sh 将使用一些参数调用第二个 shell 脚本，将使用特定于该函数的一些其他参数
shell - 从子 shell 运行 shell 命令
我有一个 Unix shell 脚本 test.sh。在脚本中，我想调用另一个 shell，然后从子 shell 执行 shell 脚本中的其余命令并退出说清楚: test.sh #! /bin/b
shell - 在 shell 脚本中更改父 shell 的路径变量
我想在 shell 脚本中更改路径环境变量。路径变量需要在shell脚本执行后修改。最佳答案我知道有两种方法可以做到这一点。第一种是在当前 shell 的上下文中运行脚本: . myscript.
shell - 管道是否保证在任何 POSIX shell 中创建子 shell？
此 shell 脚本按预期运行。 trap 'echo exit' EXIT foo() { exit } echo begin foo echo end 这是输出。 $ sh foo.sh
shell - vim shell 键映射以执行 shell 命令
我正在使用 vimshell在 vim 中执行命令 nnoremap vs :VimShellPop 使用此键映射，我可以打开 vim shell 并执行诸如“捆绑安装”之类的命令，然后输入 exi
linux - shell 内的 shell 脚本 shell
我想连接到不同的 shell(csh、ksh 等)并在每个切换的 shell 中执行命令。下面是反射(reflect)我的意图的示例程序: #!/bin/bash echo $SHELL csh e
shell - shell 运算符的优先级
我目前正在尝试使用 BNF 和 LL 解析器在 C 中重新编写 shell。否则，我需要知道 shell 运算符的优先级是什么| , > , > , & , ; ? 有没有人可以提供给我？谢谢最
shell - 如何使用脚本暂停后台 shell？
不幸的是，我没有suspend 命令(busybox/ash)。但是我可以使用 kill -STOP $$ 从后台 shell (sh &) 返回到父 shell(以及 fg 之后)。但是我不想输入
shell - SWT - 可靠地知道 shell 用户是否切换到另一个 shell 的事件
我需要知道，当用户切换到另一个 shell 时，通过单击它。我试过 shellListener.shellDeactivated()但是当 shell 失去对它自己的控件的焦点时，会触发此事件，这意
shell - (shell) 如何从一个文件中删除可以在另一个文件中找到的字符串？
file1.txt aaaa bbbb cccc dddd eeee file2.txt DDDD cccc aaaa 结果 bbbb eeee 如果能不区分大小写就更好了! 谢谢! 最佳答案 gre
shell - shell 循环可以解压缩目录中的所有文件吗？
我见过解压缩目录中所有 zip 文件的循环。但是，在运行此之前，我宁愿确保我将要运行的内容正常工作: for i in dir; do cd $i; unzip '*.zip'; rm -rf *.z
shell - shell 文本编辑器如何工作？
我对编程还很陌生，但我想知道 vim、emacs、nano 等 shell 文本编辑器如何能够控制命令行窗口。我主要是一名 Windows 程序员，所以可能在 *nix 上有所不同。据我所知，只能将文
shell - 比较文本文件中的日期| shell
我有一个包含第 7 列日期的文件，我的要求是将它与今天的日期进行比较，如果小于它，则删除该完整行。此外，如果第 7 列中提到的任何日期超过 15 天，则将其修改为最多 15 天下面的例子- now

首页

博学

6Ren·AI

商城

string - Python 对 shell 字符串的处理