gpt4 book ai didi

python - 从 PDF 中提取文本并与词典进行比较

转载 作者:行者123 更新时间:2023-12-01 01:38:12 25 4
gpt4 key购买 nike

我目前正在开发一个项目,我想从 PDF 中提取文本,然后检查提取文本中的某个单词是否出现在某个词典中。如果是这样,我想使用 example.replace(file, x, y) 将文本中的单词替换为字典中的值。

我正在努力检查文本中的所有单词并自动将它们与字典进行比较的循环。目标是我不必自己输入“旧”和"new",但程序会检查文本中的所有单词,如果在字典中找到“旧”应为文本中的单词,而“new”键的值。手动版本有效。

这是我的代码

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):

rsrcmgr = PDFResourceManager()

retstr = StringIO()
codec = 'utf-8'

laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()

for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)

text = retstr.getvalue()

fp.close()
device.close()
retstr.close()
return text

dictionary = {"Die" : "Der", "Arbeitsfläche":"Platz"}


def convert(file, old, new):

translation = convert_pdf_to_txt(file).replace(old, new)
return translation

print(convert('mytest.pdf','Die' ,'Der'))

感谢您的帮助!

最佳答案

假设您能够阅读 pdf 文件。您可以使用

将数据存储在列表中
list_voc = []

list_voc.extend(text.split())

现在使用一个简单的循环,您可以检查列表的元素是否属于字典,如果属于则替换它。

indx=0
for i in pdf_vocab:
if i in dictionary.keys():
pdf_vocab[indx] = dictionary[i]
indx = indx + 1

indx 变量存储列表的索引,只要元素(或单词)在字典中,我们就可以在该特定索引处替换该单词。

关于python - 从 PDF 中提取文本并与词典进行比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52180315/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com