gpt4 book ai didi

java - 从 PDF 文档中提取数据

转载 作者:行者123 更新时间:2023-12-01 18:15:49 28 4
gpt4 key购买 nike

我有一个 PDF 文档。

它包含表格格式的数据。我想使用逗号作为列分隔符将数据提取到逗号分隔的文本文件中。

有什么建议吗?

最佳答案

标准 PDF 不提供有关其在页面上绘制内容的语义的任何提示:语法提供的唯一区别是 vector 元素(线条、填充等)之间的区别、图像和文本。

无论任何字符是表格的一部分还是一行的一部分,或者只是空白区域中的一个单独的字符,都不容易通过解析 PDF 源代码以编程方式识别。

有关为什么 PDF 文件格式永远不应该被认为适合托管可提取的结构化数据的背景信息,请参阅这篇文章:

Why Updating Dollars for Docs Was So Difficult (ProPublica-Website)

说了上面的内容,现在让我补充一下:

Tabula 是用 Ruby 编写的。

<小时/>

更新

这是一个 ASCiinema 截屏视频(您也可以 download 并借助 asciinema 命令在 Linux/MacOSX/Unix 终端中本地重播线条工具),由 tabula-extractor 主演:

asciicast

关于java - 从 PDF 文档中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29644257/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com