gpt4 book ai didi

python - 如何使用pdfminer从python中的pdf中提取字段

转载 作者:行者123 更新时间:2023-12-01 06:54:30 25 4
gpt4 key购买 nike

我有一个 pdf 表单,我需要提取电子邮件 ID、人员姓名和其他信息,如技能、城市等。我如何使用 pdfminer3 来做到这一点。 enter image description here请找到附件中的 pdf 样本

最佳答案

首先,使用tika to将PDF转换为文本。

import re
import sys
!{sys.executable} -m pip install tika
from tika import parser
from io import StringIO
from itertools import islice

file = 'filename with directory'
parsedPDF = parser.from_file(file) # Parse data from file
text = parsedPDF['content'] # Get files text content

现在使用正则表达式提取所需的字段。您可以在线找到大量的正则表达式教程。如果您在实现时遇到任何问题,请在此处提问。

关于python - 如何使用pdfminer从python中的pdf中提取字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58872657/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com