gpt4 book ai didi

image - 从 PDF 中提取具有坐标和大小的图像和单词

转载 作者:行者123 更新时间:2023-12-04 08:45:44 27 4
gpt4 key购买 nike

我已经阅读了很多关于 PDF 提取和库(如 iText)的内容,但我还没有找到从 PDF 中提取图像和文本(带坐标)的解决方案。

任务是扫描带有产品目录的 PDF 并提取每个图像。每个图像旁边都印有一个图像代码,以及图像上显示的产品的产品代码列表。

我知道没有办法从这样的 PDF 中提取结构化信息,但是有了所有图像和文本对象的坐标,我可以编写代码来通过与图像的距离来识别链接文本。然后我可以使用 RegExp 拆分文本并找出什么是产品代码,什么是图像代码等。

你能为这项任务推荐一个好的和有效的解决方案吗?

最佳答案

使用 XPDF ( http://www.foolabs.com/xpdf/ )

它可以提取 PDF 中所有带有坐标 ( pdftotext -bbox [sourcefile] [outputfile] ) 的字符以及 PDF 中的所有图像和 SVG。

它是开源的 (GPLv2),并且还支持许多额外的提取功能。

关于image - 从 PDF 中提取具有坐标和大小的图像和单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8241724/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com