gpt4 book ai didi

parsing - 从 PDF 文件集合中提取表格内容

转载 作者:行者123 更新时间:2023-12-03 10:25:22 25 4
gpt4 key购买 nike

关闭。这个问题需要更多 focused .它目前不接受答案。












想改进这个问题?更新问题,使其仅关注一个问题 editing this post .

6年前关闭。




Improve this question




我有一堆 PDF - 可能有数百或数千。它们的格式并不完全相同,但它们中的任何一个都可能有一个或多个包含有趣信息的表,我想将这些信息收集到一个单独的数据库中。

当然,我知道我必须写一些东西才能做到这一点。 Perl 对我来说是一个选择——或者也许是 Java。我真的不在乎什么语言,只要它是免费的(或者便宜的免费试用期,以确保它适合我的目的)。

我正在查看 CAM::Parse (使用草莓 Perl),但我不确定如何使用它来定位和提取文件中的表。我想我确实偏爱 Perl,但我真的想要一些可以可靠工作并且相当容易进行字符串操作的东西。

什么是这样的好方法?我站在第一方,所以如果 java(或 python 等)有更好的钩子(Hook),现在是了解它的好时机。一般指点好;入门代码将是强烈首选。

最佳答案

  • PDF 格式从一开始 (20 多年前)从来没有打算成为可提取的、有意义的结构化数据的主机 .
  • 它的目的是为文档中的文本、图像和图表提供可靠的视觉表示——一种数字纸(也可以通过打印可靠地转移到真实的纸上)。只是在其开发的后期才添加了更多功能,这应该有助于再次提取数据(谷歌用于 Tagged PDF)。
  • 有关从 PDF 中抓取数据时出现的一些问题示例,请参阅本文:
  • Why Updating Dollars for Docs Was So Difficult
  • 与我的观点“1”相矛盾。以上 ,现在我这样说:对于一个令人惊叹的工具系列,这些工具每周都会变得越来越好,用于从 PDF 中提取表格数据(除非它们是扫描页面),请参阅以下链接:
  • Introducing Tabula: Upload a PDF, get back tabular CSV data. Poof!
  • Tabula-Extractor: A Command Line Interface to Tabula
  • Tabula source code repository
  • Tabula API (upcoming, not ready yet)

  • 所以:去寻找Tabula。如果有任何工具可以做你想做的事,那么此时 Tabula 可能是最适合这项工作的工具之一!

    更新

    我最近创建了一个 ASCiinema screencast演示如何使用 Tabula 命令行界面从 PDF 中提取大表格为 CSV:

    asciicast

    (单击上图查看它正在运行。如果它运行得太快,您无法阅读所有文本,请使用“暂停”按钮( || -symbol)。)

    它在这里托管:
  • https://asciinema.org/a/22761
  • 关于parsing - 从 PDF 文件集合中提取表格内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17217194/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com