gpt4 book ai didi

python - 解析PDF文档

转载 作者:行者123 更新时间:2023-11-30 23:09:59 25 4
gpt4 key购买 nike

我将尝试下面链接中的 pdf 模块。假设可行,我的问题是:

有没有一种方法可以存储像契约(Contract)这样的大型文本文档,并且能够同时从多个文档中查询信息?

例如,我想查询终止日期或定价,然后能够阅读该部分以获取契约(Contract)列表。

最佳答案

我为此使用了 pyPDF 库(这直接来自 activeState 网页):

import pyPdf

def getPDFContent(path):
content = ""
# Load PDF into pyPDF
pdf = pyPdf.PdfFileReader(file(path, "rb"))
# Iterate pages
for i in range(0, pdf.getNumPages()):
# Extract text from page and add to content
content += pdf.getPage(i).extractText() + "\n"
# Collapse whitespace
content = " ".join(content.replace("\xa0", " ").strip().split())
return content

print getPDFContent("test.pdf")

这应该是一个很好的起点。我已使用它来自动测试创建的 PDF。

也许更适合您的问题的更好方法是使用 Microsoft 的 SQL Server。他们对文档进行全文搜索(搜索“SQL Server Full text search on pdf”)。如果您可以加载 SQL Server 上的所有文档,那么您就可以开始使用全文搜索来获取您想要的信息。这可能比上面的更容易、更灵活。

关于python - 解析PDF文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30879927/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com