gpt4 book ai didi

python - 在 python 3 中以二进制模式打开带有通用换行符的文件

转载 作者:太空狗 更新时间:2023-10-30 02:51:21 26 4
gpt4 key购买 nike

我们(终于)将应用程序升级到 Python 3。

我们必须升级的一件事是使用普通换行符重写 CSV 文件。

原始(python 2)代码如下所示:


import csv

IN_PATH = 'in.csv'
OUT_PATH = 'out.csv'

# Opens the original file in 'text mode' (which has no effect on Python 2)
# and with 'universal newlines',
# meaning \r, \n, and \r\n all get treated as line separators.
with open(IN_PATH, 'rU') as in_csv:
with open(OUT_PATH, 'w') as out_csv:
csv_reader = csv.reader(in_csv)
csv_writer = csv.writer(out_csv)

for tupl in csv_reader:
csv_writer.writerow(tupl)

这些 CSV 文件由用户提供。这意味着:

  • 我们无法控制他们使用的换行符,因此我们需要处理所有这些字符。
  • 在此过程的这个阶段,我们不知道文件的编码。

因为我们不知道编码,所以我们无法将字节串解码为文本。

为了使其在 Python 3 上运行,首先我们将其更改为使用 io.open(),它主要与 py3 的 open() 兼容。现在我们不能再使用“文本模式”了,因为在 Python 3 上需要解码字节串,而我们不知道编码。

但是,使用“二进制模式”意味着我们不能再使用通用换行符,因为它仅在文本模式下可用。


# Opens the original file in 'binary mode'
# (because we don't know the encoding, so we can't decode it)
# FIXME: How to get universal newline support?
with io.open(IN_PATH, 'rb') as in_csv:
with io.open(OUT_PATH, 'wb') as out_csv:

请注意,虽然 python 3 不再支持 U 模式字符,但它在文本模式下默认使用通用换行符。它似乎没有任何在二进制模式下使用通用换行符的方法。

我们怎样才能使这段代码在 Python 3 中工作?

最佳答案

TLDR:在 Python3 上使用 ASCII 和代理转义:

def text_open(*args, **kwargs):
return open(*args, encoding='ascii', errors='surrogateescape', **kwargs)

recommended approach如果您只知道部分编码(例如 ASCII \r\n),则对未知代码点使用代理转义:

What can you do if you need to make a change to a file, but don’t know the file’s encoding? If you know the encoding is ASCII-compatible and only want to examine or modify the ASCII parts, you can open the file with the surrogateescape error handler:

这使用保留的占位符将未知字节嵌入到您的文本流中。例如,字节 b'\x99' 成为“unicode”代码点 '\udc99'。这适用于读取和写入,允许您保留任意嵌入数据。

常见的行结尾(\n\r\r\n)在ASCII 中都是明确定义的。因此,使用带有代理转义符的 ASCII 编码就足够了。

对于兼容性代码,最简单的方法是提供不同功能的单独 Python 2 和 Python 3 版本。 open 非常相似,对于大多数用例,您只需插入代理转义处理即可。

if sys.version_info[0] == 3:
def text_open(*args, **kwargs):
return open(*args, encoding='ascii', errors='surrogateescape', **kwargs)
else:
text_open = open

这允许在不知道确切编码的情况下使用通用换行符。您可以使用它来直接读取或转录文件:

with text_open(IN_PATH, 'rU') as in_csv:
with text_open(OUT_PATH, 'wU') as out_csv:
for line in in_csv:
out_csv.write(line)

如果您需要进一步格式化csv 模块,text_open 提供的文本流也足够了。要处理非 ascii 分隔符/填充/引号,请将它们从字节串转换为适当的代理项。

if sys.version_info[0] == 3:
def surrogate_escape(symbol):
return symbol.decode(encoding='ascii', errors='surrogateescape')
else:
surrogate_escape = lambda x: x

Dezimeter = surrogate_escape(b'\xA9\x87')

关于python - 在 python 3 中以二进制模式打开带有通用换行符的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56370136/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com