gpt4 book ai didi

html - PDF 到结构化格式

转载 作者:行者123 更新时间:2023-11-27 22:40:25 25 4
gpt4 key购买 nike

我有大量 PDF 需要转换成我可以解释的结构化格式(HTML/XML 等)

PDF 格式如下: http://img840.imageshack.us/img840/5407/pdfv.png

到目前为止,我已经尝试了很多转换为 HTML 的软件,但它们都没有分离图像的功能,它们只是将没有文本的页面作为打印屏幕,然后将此图像用作背景html,使用css定位文本

像这样:http://img37.imageshack.us/img37/5015/examplelp.jpg

我有一堆 PDF,因此无法手动处理每个图像。有谁知道这方面的任何解决方案(甚至是付费软件)?

最佳答案

我前段时间遇到了类似的问题,最后写了我自己的解决方案。它叫做PDFX并且可以免费使用。它将 PDF 转换为结构化格式的 XML,并单独呈现在 PDF 中找到的任何位图图像(不是矢量图形)。

可以找到示例输入/输出 here .您可能想尝试一下。

关于html - PDF 到结构化格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11287170/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com