gpt4 book ai didi

Python:回溯编解码器.charmap_decode(输入,self.errors,decoding_table)[0]

转载 作者:太空宇宙 更新时间:2023-11-03 14:30:20 28 4
gpt4 key购买 nike

以下是示例代码,目的只是合并给定文件夹及其子文件夹中的文本文件。我偶尔会收到 Traceback,所以不确定去哪里找。还需要一些帮助来增强代码以防止空行被合并并在合并/主文件中不显示任何行。在合并文件之前,应该执行一些清理或者只是在合并过程中忽略空行可能是个好主意。

文件夹中的文本文件不超过 1000 行,但聚合主文件很容易超过 10000 行。

import os
root = 'C:\\Dropbox\\ans7i\\'
files = [(path,f) for path,_,file_list in os.walk(root) for f in file_list]
out_file = open('C:\\Dropbox\\Python\\master.txt','w')
for path,f_name in files:
in_file = open('%s/%s'%(path,f_name), 'r')

# write out root/path/to/file (space) file_contents
for line in in_file:
out_file.write('%s/%s %s'%(path,f_name,line))
in_file.close()

# enter new line after each file
out_file.write('\n')

with open('master.txt', 'r') as f:
lines = f.readlines()
with open('master.txt', 'w') as f:
f.write("".join(L for L in lines if L.strip()))



Traceback (most recent call last):
File "C:\Dropbox\Python\master.py", line 9, in <module> for line in in_file:
File "C:\PYTHON32\LIB\encodings\cp1252.py", line 23, in decode return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x81 in position 972: character maps to <undefined>

最佳答案

抛出错误是因为 Python 3 使用与内容不匹配的默认编码打开文件。

如果您所做的只是复制文件内容,最好使用 shutil.copyfileobj() function连同以二进制模式打开文件。这样一来,您就可以完全避免编码问题(当然,只要您的所有源文件都是相同的编码,这样您就不会得到包含混合编码的目标文件):

import shutil
import os.path

with open('C:\\Dropbox\\Python\\master.txt','wb') as output:
for path, f_name in files:
with open(os.path.join(path, f_name), 'rb') as input:
shutil.copyfileobj(input, output)
output.write(b'\n') # insert extra newline between files

我已经稍微清理了代码以使用上下文管理器(以便您的文件在完成后自动关闭)并使用 os.path 为您的文件创建完整路径。

如果您确实需要逐行处理您的输入,您需要告诉 Python 需要什么编码,以便它可以将文件内容解码为 python 字符串对象:

open(path, mode, encoding='UTF8')

请注意,这需要您预先知道文件使用的编码方式。

阅读 Python Unicode HOWTO如果您对 python 3、文件和编码有进一步的疑问。

关于Python:回溯编解码器.charmap_decode(输入,self.errors,decoding_table)[0],我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12213178/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com