gpt4 book ai didi

python - 如何读取亚洲语言(中文、日文、泰文等)的 PDF 文件并将其存储在 python 中的字符串中

转载 作者:行者123 更新时间:2023-11-28 17:05:58 33 4
gpt4 key购买 nike

我正在使用 PyPDF2 在 python 中读取 PDF 文件。虽然它适用于英语和欧洲语言(英语字母表),但图书馆无法阅读日语和中文等亚洲语言。我尝试了 encode('utf-8')decode('utf-8') 但似乎没有任何效果。它只是在提取文本时打印一个空白字符串。

我尝试过其他库,如 textract 和 PDFMiner,但还没有成功。

当我从 PDF 复制文本并将其粘贴到笔记本上时,字符变成了一些随机格式的文本(可能采用不同的编码)。

def convert_pdf_to_text(filename):
text = ''
pdf = PyPDF2.PdfFileReader(open(filename, "rb"))
if pdf.isEncrypted:
pdf.decrypt('')
for page in pdf.pages:
text = text + page.extractText()
return text

谁能指出我正确的方向?

最佳答案

我也遇到过类似的问题。我可以通过使用“tika-python”库来解决它。

import tika
tika.initVM()
from tika import parser
parsed = parser.from_file('fileName.pdf')
print(parsed["metadata"])
print(parsed["content"])

您可以通过 here 找到有关图书馆的更多信息。

关于python - 如何读取亚洲语言(中文、日文、泰文等)的 PDF 文件并将其存储在 python 中的字符串中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50985619/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com