gpt4 book ai didi

python - 如何从西里尔文的pdf中获取数据?

转载 作者:太空宇宙 更新时间:2023-11-03 14:40:32 25 4
gpt4 key购买 nike

尝试获取西里尔文数据时出现错误

import codecs
pdfFileObj = codecs.open('1.pdf', 'rb','utf-8')

错误是

'utf8' codec can't decode byte 0x9c in position 1: invalid start byte

最佳答案

PDF 不是文本文件

PDF 不是 unicode,PDF 充满了二进制流,有文本、图像等。

使用一些 PDF 库

看看PyPDF2 。要从第一页获取文本,请执行

pdf = PdfFileReader(open('/tmp/russian.pdf', 'rb'))
text = pdf.getPage(0).extractText()

尽管您可能还需要将其转换为windows-1251

text.encode('latin').decode('windows-1251')

关于python - 如何从西里尔文的pdf中获取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46581122/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com