gpt4 book ai didi

algorithm - PDF数据提取——需要建议

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:32:07 24 4
gpt4 key购买 nike

我创建了一个pdf 提取工具。附加示例屏幕。 enter image description here用户可以加载 pdf 文件并选择他想要的数据区域。然后我抓取 pdf 坐标和页码,然后将其另存为模板。一旦用户给出 pdf 文件列表工具就能够根据模板文件提取数据。 My tool is very much similar to this.

现在的问题是,有时在某些 pdf 中,需要提取的数据部分会转移到下一页。 (转移的原因是;我将举一个例子。如果您认为您购买的元素 list 的 list ,打印“总值(value)”的位置取决于您购买的商品数量:如果列表很长,则总数会排在底部,否则会排在中间或接近顶部)。

因此现在我正在考虑识别pdf的结构而不是获取坐标。

但我没有明确的想法去做那件事。请分享任何您认为有助于解决此问题的内容。我再次重申,我正在尝试从 pdf 中获取数据。因此可以捕获 pdf 文件的结构

我的想法是,如果我能识别结构,那么我就能说出值在哪里。例如,我尝试将 pdf 转换为 html 并尝试浏览 html 标签值。 (body->div->table->td-> etc.) 但没有成功.. :(

最佳答案

PDF 只有弱结构,不像 div 或容器。有层组和类似的,但坐标是唯一的东西,你可以指望。

尝试描述文本类型和左右边距,使您的捕获页面独立。

关于algorithm - PDF数据提取——需要建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5338062/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com