gpt4 book ai didi

python - 文本提取项目 - 仅从 PDF 中提取特定行/项目的最佳工具?

转载 作者:太空宇宙 更新时间:2023-11-03 16:34:30 24 4
gpt4 key购买 nike

我正在从事一个项目,该项目将从 pdf 文档中提取指定的文本。我没有这种类型的提取经验。一个问题是我们不只是想要文档中所有文本的转储。相反,有没有办法只提取 pdf 中的某些字段?是否有可用于此类内容的 pdf 模板概念?

我正在尝试使用 Apple 的 Automator - 它能够获取所有文本但不是指定的文本。理想情况下,我希望 Pages 中的某人拥有例如 30 行谨慎的文本,并将其中 20 行指定为“目录项”,并让我们的 Automator 脚本仅采用这 20 行。

关于最佳工作流程/提取工具的任何想法?我更喜欢只使用消费者级别的项目,例如 Apple Pages、Automator 和 ruby​​ 或 python 作为脚本语言。

谢谢

编辑#1看起来带标签的 pdf 可能是一种方法 - 不确定 Apple Pages 对它的支持程度

最佳答案

对于 python,最好的选择可能是 PDFMiner .它可以提取每个文本字符串的坐标,因此您可以自己计算出表单中的矩形并挑选出落在其中的内容。这一切都非常低级,但不幸的是 PDF 是一种非常低级的格式。

请注意,除非您已经非常了解 PDF 的结构,否则您会发现 API 和文档相当匮乏。查找使用示例,包括此处的 SO。

关于python - 文本提取项目 - 仅从 PDF 中提取特定行/项目的最佳工具?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9861828/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com