- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我们(终于)将应用程序升级到 Python 3。
我们必须升级的一件事是使用普通换行符重写 CSV 文件。
原始(python 2)代码如下所示:
import csv
IN_PATH = 'in.csv'
OUT_PATH = 'out.csv'
# Opens the original file in 'text mode' (which has no effect on Python 2)
# and with 'universal newlines',
# meaning \r, \n, and \r\n all get treated as line separators.
with open(IN_PATH, 'rU') as in_csv:
with open(OUT_PATH, 'w') as out_csv:
csv_reader = csv.reader(in_csv)
csv_writer = csv.writer(out_csv)
for tupl in csv_reader:
csv_writer.writerow(tupl)
这些 CSV 文件由用户提供。这意味着:
因为我们不知道编码,所以我们无法将字节串解码为文本。
为了使其在 Python 3 上运行,首先我们将其更改为使用 io.open()
,它主要与 py3 的 open()
兼容。现在我们不能再使用“文本模式”了,因为在 Python 3 上需要解码字节串,而我们不知道编码。
但是,使用“二进制模式”意味着我们不能再使用通用换行符,因为它仅在文本模式下可用。
# Opens the original file in 'binary mode'
# (because we don't know the encoding, so we can't decode it)
# FIXME: How to get universal newline support?
with io.open(IN_PATH, 'rb') as in_csv:
with io.open(OUT_PATH, 'wb') as out_csv:
请注意,虽然 python 3 不再支持 U
模式字符,但它在文本模式下默认使用通用换行符。它似乎没有任何在二进制模式下使用通用换行符的方法。
我们怎样才能使这段代码在 Python 3 中工作?
最佳答案
TLDR:在 Python3 上使用 ASCII 和代理转义:
def text_open(*args, **kwargs):
return open(*args, encoding='ascii', errors='surrogateescape', **kwargs)
recommended approach如果您只知道部分编码(例如 ASCII \r
和 \n
),则对未知代码点使用代理转义:
What can you do if you need to make a change to a file, but don’t know the file’s encoding? If you know the encoding is ASCII-compatible and only want to examine or modify the ASCII parts, you can open the file with the surrogateescape error handler:
这使用保留的占位符将未知字节嵌入到您的文本流中。例如,字节 b'\x99'
成为“unicode”代码点 '\udc99'
。这适用于读取和写入,允许您保留任意嵌入数据。
常见的行结尾(\n
、\r
、\r\n
)在ASCII 中都是明确定义的。因此,使用带有代理转义符的 ASCII 编码就足够了。
对于兼容性代码,最简单的方法是提供不同功能的单独 Python 2 和 Python 3 版本。 open
非常相似,对于大多数用例,您只需插入代理转义处理即可。
if sys.version_info[0] == 3:
def text_open(*args, **kwargs):
return open(*args, encoding='ascii', errors='surrogateescape', **kwargs)
else:
text_open = open
这允许在不知道确切编码的情况下使用通用换行符。您可以使用它来直接读取或转录文件:
with text_open(IN_PATH, 'rU') as in_csv:
with text_open(OUT_PATH, 'wU') as out_csv:
for line in in_csv:
out_csv.write(line)
如果您需要进一步格式化csv
模块,text_open
提供的文本流也足够了。要处理非 ascii 分隔符/填充/引号,请将它们从字节串转换为适当的代理项。
if sys.version_info[0] == 3:
def surrogate_escape(symbol):
return symbol.decode(encoding='ascii', errors='surrogateescape')
else:
surrogate_escape = lambda x: x
Dezimeter = surrogate_escape(b'\xA9\x87')
关于python - 在 python 3 中以二进制模式打开带有通用换行符的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56370136/
我有一个带有 的表格我想在服务器端捕获该文本区域中的任何换行符,并将它们替换为 . 这可能吗? 我尝试设置 white-space:pre在 textarea 上的 CSS,但仍然不够。 最佳答案
我正在通过 FileStream 更改文件(这是一个非常大的文件,我只需要更改标题而不重写整个文件。 该文件可以有 Unix 或 Windows 换行符,知道哪一个对我来说很重要,这样我可以在更新文件
如何以编程方式(不使用 vi)将 DOS/Windows 换行符转换为 Unix 换行符? dos2unix 和 unix2dos 命令在某些系统上不可用。 如何使用 sed、awk 和 tr 等命令
我编辑了一个 BibteX 文件,到目前为止,它显示了我需要的所有信息。 FUNCTION {electronic} { output.bibitem format.btitle "title"
您的软件是否处理来自其他系统的换行符? Linux/BSD linefeed ^J 10 x0A Windows/IBM return linefeed ^M^
我发现 Windows 命令行重定向会自动将 '\n' 替换为 '\r\n'。有什么方法可以避免这种情况?因为在 stdout 或 stderr 重定向之后,如果您将 '\r\n' 写入控制台,您将得
来自 this question ,这个…… lines = foo.value.split(/\r\n|\r|\n/); 是拆分字符串的一种方法,但如何用换行符将其连接回去? 另外,我想知道如果我说
我正在尝试获取新行,但如果我使用 \n 它不起作用。 任何通过向字符串添加一些东西来换行的方法,例如 \r\n (这也不起作用) gfx.DrawString("Project No \n" + te
我有一串数据,中间有换行符。例如: "Product Name \n Product Color \n Product Quantity \n Product Location \n Product
我正在尝试让 scmCommentPrefix 按照 http://maven.apache.org/plugins/maven-release-plugin/faq.html#scmCommentP
如何检查正则表达式 /^\n/在字符串中 blahblahblah 我似乎无法从 php 的 preg_match 获得返回值 1 . 编辑: 由于某种原因,我的坏处是 CR 本身就是我的换行符。
我很难在与文本字符串相同的行上输出变量。当我使用Write-Host而不是Write-Output时,它可以工作。我想使用Write-Output,因为这似乎是最佳做法(将内容保留在管道中),但是Wr
我正在Powershell中工作,以为here字符串中的特定单词着色。除包含回车/换行符的单词外,其他功能均有效。没有这些字符,如何计算单词的长度? 以下是我正在使用的功能和测试数据。我希望第二行上的
我有一个在Powershell中运行的脚本,并且我希望能够在脚本名称和脚本内容本身之间的结果文本文件输出中添加一行。 当前,从下面开始,行$str_msg = $file,[System.IO.Fil
有人知道smalltalk中字符串的换行符是什么吗? 我试图将字符串拆分为单独的行,但我无法弄清楚smalltalk 中的换行符是什么。 即。 string := 'smalltalk is
我有以下 printf 语句: printf ("%s (%s)\n",$row["word"], $row["definition"]); 我正在尝试解决换行符而不是: word defin
这个问题已经有答案了: how to use dotall flag for regex.exec() (4 个回答) 已关闭 7 年前。 字符串内容
我想用 CSS 换行。我正在使用内容。 td:before { content: "Test\A Test2"; } 它不工作。如何正确
考虑一个具有 UNIX 行结尾的 C++ 文件(即 '\x0a' 而不是 "\x0d\x0a")并包含以下原始字符串文字: const char foo[] = R"(hello^M )"; (其中
我有以下 printf 语句: printf ("%s (%s)\n",$row["word"], $row["definition"]); 我正在尝试解决换行符而不是: word defin
我是一名优秀的程序员,十分优秀!