gpt4 book ai didi

pdf - 将图层从PDF文件提取到HTML

转载 作者:行者123 更新时间:2023-12-04 03:00:15 24 4
gpt4 key购买 nike

我有一个PDF文件,其中包含图层。

例如,在某些页面上,单击(层)时,会有一些图形,并在该图形的顶部显示其他数据。

现在,我需要尝试从PDF文件中提取所有这些图层,或者确切地说,我需要该PDF文件中的所有数据,包括图层。 pdf文件包含用于在适当时显示/隐藏图层的javascript。

最好的方法是什么?有没有可以真正满足我意图的工具?还是我应该自己写点东西? (当然可以)。

编辑:

您可以在此处下载PDF文件:
http://www.2shared.com/document/IutUfDfr/OR_erasmus.html

查看的密码是:

最佳答案

我不知道本身是否有任何工具,但是如果找不到这些工具,则可以执行以下操作:


对于您感兴趣的开关层的每种组合,请遍历所有页面并收集内容流。对这些标记进行标记,并切掉您不想看到的内容(确定这些需要监视的命令是BDC和EMC)。再次使用剪切后的内容保存流(自然将结果保存到其他文件中)。您需要一些内容来阅读PDF对象结构并更新一些对象(为此有很多库),此外还需要能够解析内容流。


现在,您将拥有一组不带图层(可选内容)的PDF文件,对于这些文件,有很多工具可以呈现为HTML等。

注意:PDF查看器中的可选内容<->层开关通常为1:1,但标准支持完整的n:m映射。我将专注于可以打开/关闭以使事情简单的真正可选内容块。

关于pdf - 将图层从PDF文件提取到HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7686017/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com