gpt4 book ai didi

Python 写入文件时出现 UnicodeEncodeError

转载 作者:太空宇宙 更新时间:2023-11-03 14:34:00 27 4
gpt4 key购买 nike

我正在使用“pdfminer.six”(一个 Python 库)从我拥有的几个 PDF 中提取所有文本。我的方法工作完美,但对于某些 pdf,可能有一些特殊字符,当我将其写入文本文件时,我收到“Unicode 编码错误:'charmap' 编解码器无法编码字符 '\u03b2'在位置 271130:字符映射到“.现在,我知道“正在”发生什么,但我想知道如何最好地对待它。这是让我头疼的部分:

    with open("newTxtFile.txt", "w") as textFile:
textFile.write(text)

由于我来自巴西并且文本是葡萄牙语,因此我想保留所有重音符号,因此我在 pdfminer 中使用“codec = 'latin-1'”。据我检查,保存前打印一直到最后都完美无缺,但每当我尝试保存到文件时,都会收到 UnicodeEncodeError。

我想到的两个选择是:要么我找到一种方法来仅捕获给我带来麻烦的特定字符:

    with open("newTxtFile.txt", "w") as textFile:
try:
textFile.write(text)
except UnicodeEncodeError:
????

但我不知道 except 中应该包含什么?

或者我应该以不同的方式保存到文件中。

谁能给我一些建议吗?非常感谢!

最佳答案

尝试:

with open("newTxtFile.txt", "wb") as textFile:
textFile.write(text.encode('utf8'))

阅读它:

with open("newTxtFile.txt", "rb") as textFile:
text = textFile.read().decode('utf8')

关于Python 写入文件时出现 UnicodeEncodeError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47092780/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com