gpt4 book ai didi

python - 列表上的循环操作仅对第一项无法正确执行

转载 作者:太空宇宙 更新时间:2023-11-03 15:39:45 25 4
gpt4 key购买 nike

我只是尝试从导入的文本文件中的每一行中删除前 45 个字符,然后将结果写入新的文本文件。由于某种原因,只有列表/行中的第一项会被搞乱,并且只有前 42 个字符被删除。

我之前多次遇到过这个问题,但一直不明白为什么会发生,可以利用一些外部智慧!谢谢!

这是我的代码:

list1 = []
list2 = []
with codecs.open('FILE.txt', "r", encoding="utf-8") as inputfile:
list1 = [line.strip() for line in inputfile]
list1 = [x.encode('utf-8') for x in list1]
for item in list1:
list2.append(item[45:])
z = open('NEWFILE.txt', 'w');
z.write("\n".join(list2))
z.close()

最佳答案

第一行中的 UTF-8 内容以及 3 个字节的移位看起来非常像额外的 BOM header 。

>>> from codecs import BOM_UTF8
>>> len(BOM_UTF8)
3

大多数文本编辑器都会检测到 BOM header ,但它并不直接可见(除非您使用文本编辑器)。

我建议你像这样改变你的内部循环:

for item in list1:
list2.append(item[45+len(codecs.BOM_UTF8) if item.startswith(codecs.BOM_UTF8) else 45:])

因此,如果行(第一行)以 BOM header 开头,则添加 3 个额外字节

或者可以直接在编码完整字符串之前:

list1 = [(x[len(codecs.BOM_UTF8):] if x.startswith(codecs.BOM_UTF8) else x).encode('utf-8') for x in list1]

BOM 条码取自此 Q/A:Python load json file with UTF-8 BOM header

关于python - 列表上的循环操作仅对第一项无法正确执行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42261131/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com