gpt4 book ai didi

python - 为什么 Python re.search 在我的字符串中添加空格?

转载 作者:太空宇宙 更新时间:2023-11-04 03:48:25 26 4
gpt4 key购买 nike

我希望 Python 打开一个 Unicode 文本文件,读取每一行,然后如果该行不包含任何数字,则将该行写入一个新的 Unicode 文本文件。所以如果输入是:

1
8:00:00 --> 8:00:01
Hello World!

它应该输出:

Hello World!

但我得到的是:

H e l l o  W o r l d !

我不确定为什么要在每个字符之间添加空格。我错过了什么?这是我正在使用的代码:

import re

nFile = open("NewFile.txt", 'w')

with open("OriginalFile.txt", 'r') as f:
for line in f:
if not (re.search("\d", line)):
nFile.write(line)

最佳答案

这是一个艰难的过程,但这似乎行得通。

首先,正如我们已经在评论中讨论的那样,这是一个编码问题。事实上,search 无法向字符串添加空格,即使它想添加空格也是如此,因为字符串是不可变的,所以唯一的方法是更改​​ line是通过做类似 line = ... 的事情。

您在注释中链接的输入文件编码为 UTF-16-LE,这不是 Python 使用的默认格式。阅读它的一种方法(可能还有其他方法,请随时发表评论)是使用 codecs模块。

import re, codecs
with codecs.open("HarryPotterSubsEs2.txt", 'r', encoding="utf-16-le") as f:
for line in f:
if not (re.search("\d", line)):
print line

要将选定的行写入输出文件,您可以对输出文件执行相同的操作,或者执行 line = line.encode("utf8") 将行写入文件作为 utf8。 (出于某种原因,读取行时同样不起作用,它导致了 unicode 错误。在这种情况下,不能 100% 确定从 UTF16 到 UTF8 的编码是无损的;再次,请随时发表评论。)

作为替代方案,您可能会找到一种方法以不同的编码保存文件(最好是 utf8 使用与记事本不同的文本编辑器...

关于python - 为什么 Python re.search 在我的字符串中添加空格?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22542989/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com