gpt4 book ai didi

pdf - PDF文本字符串的编码

转载 作者:行者123 更新时间:2023-12-04 02:30:38 24 4
gpt4 key购买 nike

我正在研究用于PDF(文本提取)的解析器。

当页面需要平面解码(通过zlib压缩)时,我的代码能够解压缩内容流,然后输出(流对象)如下所示:

BT
56.8 721.3 Td
/F2 12 Tf
[<01>2<0203>2<04>-10<0503>2<04>-2<0506070809>2<0A>1<0B>]TJ
ET


我对字符串数组(TJ的操作数)感兴趣。

似乎此数组中包含多个十六进制编码的字符串,但是相应的十六进制值没有意义。相反,它看起来像一个序列010203 ...有点lz77压缩。


PDF是否具有多个压缩级别?
如何从字符串数组上方获取纯文本?

最佳答案

阿布舍克

这不是一个简单的问题,不幸的是,它表明您尚未阅读PDF规范。您应该这样做。

您可以在此处下载Acrobat SDK:
http://www.adobe.com/devnet/acrobat/sdk/eula.html

其中一部分是PDF规范,这是一个非常繁重的文档,解释了PDF的来龙去脉(包括对问题的回答)。

简而言之,而不是代替阅读文档,您正在寻找的是/ F2 12 Tf命令设置的字体编码中的字符值,该命令设置了随后编写文本时使用的特定字体。

关于pdf - PDF文本字符串的编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29467539/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com