Python open ("x", "r") 函数，我怎么知道或控制文件应该有哪种编码？-6ren

Python open ("x", "r") 函数，我怎么知道或控制文件应该有哪种编码？

转载作者：太空狗更新时间：2023-10-30 01:24:08

25

4

如果 python 脚本使用 open("filename", "r") 函数打开并随后读取文本文件的内容，我如何判断该文件是哪种编码应该有？

请注意，由于我是从我自己的程序中执行此脚本，如果有任何方法可以通过环境变量来控制它，那么这对我来说就足够了。

顺便说一句，这是 Python 2.7。

有问题的代码来自 Mercurial，可以通过磁盘上的文件为它提供一个文件列表，例如添加到存储库，而不是通过命令行传递它们。

所以基本上，而不是这个:

hg add A B C

我可以将 A、B 和 C 写到一个文件中，每个文件之间有换行符，然后执行以下操作:

hg add listfile:input.txt

最终读取这个文件的代码是这样的:

files = open(name, 'r').read().split(delimiter)

因此我的问题。当我询问我应该使用哪种编码时，我在 IRC 上得到的答案是:

it is the same encoding than the one you use on command line when passing a file argument

我认为这意味着它与我在执行 Mercurial (hg) 时“使用”的编码相同。由于我不知道那是哪种编码，我只是将所有内容都提供给 .NET Process 对象，我在这里问。

最佳答案

你不能。读取文件与其编码无关；您需要提前知道编码，以便正确解释您读入的字节。

例如，如果您知道文件是用 UTF-8 编码的:

with open('filename', 'rb') as f:
    contents = f.read().decode('utf-8-sig')    # -sig deals with BOM, if present

或者如果您知道该文件仅为 ASCII:

with open('filename', 'r') as f:
    contents = f.read()    # results in a str object

如果您真的不知道文件的编码，那么显然不能保证您可以正确读取它；但是，您可以使用 chardet 等工具猜测编码.

更新:

我想我现在明白你的问题了。我以为您有一个需要为其编写代码的文件，但看起来您有需要为其编写文件的代码 ;-)

有问题的代码可能只正确处理纯 ASCII(字符串可能稍后被转换，但我认为不太可能)。因此，您需要制作一个仅包含 ASCII(代码点 < 128)字符的文本文件，并确保它以 ASCII 编码(即不是 UTF-16 或类似的编码)保存。考虑到 Mercurial 处理可以包含 Unicode 字符的文件名，这有点不幸。

关于Python open ("x", "r") 函数，我怎么知道或控制文件应该有哪种编码？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5849654/

25

4

0

文章推荐： python - Paramiko 和 sudo

文章推荐： c# - 如何根据良好做法使用 WPF 打开新窗口？

详解C语言sscanf()函数、vsscanf()函数、vscanf()函数
C语言sscanf()函数：从字符串中读取指定格式的数据头文件： ?
php - 如何解释at()函数； substr()函数;伪代码中的exist()函数
最近，我有一个关于工作预评估的问题，即使查询了每个功能的工作原理，我也不知道如何解决。这是一个伪代码。下面是一个名为foo()的函数，该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数，
VBS教程：函数-CStr 函数
CStr 函数返回表达式，该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CSng 函数
CSng 函数返回表达式，该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-CreateObject 函数
CreateObject 函数创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
VBS教程：函数-Cos 函数
Cos 函数返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
VBS教程：函数-CLng 函数
CLng 函数返回表达式，此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。说明通常，您可以使
VBS教程：函数-CInt 函数
CInt 函数返回表达式，此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-Chr 函数
Chr 函数返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。说明从 0 到 31 的数字表示标准的不可打印的
VBS教程：函数-CDbl 函数
CDbl 函数返回表达式，此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。说明通常，您可
VBS教程：函数-CDate 函数
CDate 函数返回表达式，此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。说明 IsDate 函数用于判断 d
VBS教程：函数-CCur 函数
CCur 函数返回表达式，此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。说明通常，
VBS教程：函数-CByte 函数
CByte 函数返回表达式，此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CBool 函数
CBool 函数返回表达式，此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。说明如果 ex
VBS教程：函数-Atn 函数
Atn 函数返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
VBS教程：函数-Asc 函数
Asc 函数返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符，则将发生运行时错误。
VBS教程：函数-Array 函数
Array 函数返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表（用逗号分隔）。如果没有指定此参数，则
VBS教程：函数-Abs 函数
Abs 函数返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null，则返回 Null；如果是未初始化变量，则返回 0。
VBS教程：函数-FormatPercent 函数
FormatPercent 函数返回表达式，此表达式已被格式化为尾随有 % 符号的百分比（乘以 100 ）。 FormatPercent(expression[,NumDigitsAfterD
VBS教程：函数-FormatNumber 函数
FormatNumber 函数返回表达式，此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc

首页

博学

6Ren·AI

商城

Python open ("x", "r") 函数，我怎么知道或控制文件应该有哪种编码？