gpt4 book ai didi

python - 这是什么(cid :51) in the output of pdf2txt?

转载 作者:太空狗 更新时间:2023-10-29 19:30:06 26 4
gpt4 key购买 nike

所以我想从 pdf 文件中提取文本,我需要它的位置、宽度、高度、字体。

我已经尝试了很多,但最有用和最完整的解决方案看起来是 PDFMiner ,在这种情况下,更准确地说是 pdf2txt.py .

我已经按照文档和示例进行操作,并尝试使用以下命令从我的 pdf 中提取文本了解更多:

pdf2txt.py -Y normal -t xml -o buttons.xml buttons.pdf

输出 buttons.xml 如下所示:

<?xml version="1.0" encoding="utf-8" ?>
<pages>
<page id="1" bbox="0.000,0.000,799.900,449.944" rotate="0">
<textbox id="0" bbox="164.979,213.240,247.680,235.944">
<textline bbox="164.979,213.240,247.680,235.944">
<text font="KZNUUP+HelveticaNeue-Bold" bbox="164.979,213.240,178.978,235.944" size="22.704">(cid:51)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="173.280,213.240,187.278,235.944" size="22.704">(cid:76)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="181.315,213.240,195.313,235.944" size="22.704">(cid:72)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="189.350,213.240,203.348,235.944" size="22.704">(cid:89)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="194.795,213.240,208.793,235.944" size="22.704">(cid:85)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="203.096,213.240,217.094,235.944" size="22.704">(cid:3)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="206.987,213.240,220.986,235.944" size="22.704">(cid:52)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="219.684,213.240,233.682,235.944" size="22.704">(cid:86)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="228.237,213.240,242.235,235.944" size="22.704">(cid:89)</text>
<text font="KZNUUP+HelveticaNeue-Bold" bbox="233.682,213.240,247.680,235.944" size="22.704">(cid:76)</text>
<text></text>
</textline>
</textbox>
<textgroup bbox="164.979,213.240,419.659,235.944">
<textbox id="0" bbox="164.979,213.240,247.680,235.944" />
</textgroup>
</page>
</pages>

第一个字符应该是 L 和 51 (cid:51) 似乎与我句子中的任何字符都不匹配,关于 ascii tableutf-8 table

正如标题所说,我想知道它是什么,以及如何使用这些 (cid:51)...


编辑

所以我发现程序写 (cid:%d) 而不是获取真实字符,因为他不识别这是一个 unicode 字符串。

首先调用这个函数写入字符:

def render_char(self, matrix, font, fontsize, scaling, rise, cid):
try:
text = font.to_unichr(cid)
assert isinstance(text, unicode), text
except PDFUnicodeNotDefined:
text = self.handle_undefined_char(font, cid)

但是 assert 失败并触发事件 PDFUnicodeNotDefined 被捕获并调用:

def handle_undefined_char(self, font, cid):
if self.debug:
print >>sys.stderr, 'undefined: %r, %r' % (font, cid)
return '(cid:%d)' % cid

这就是我以包含所有这些 (cid:%d) 的文件结尾的方式。

我是 python 的新手,我试图找出一种识别这些字符的方法,它应该是一个不?有人知道吗?

最佳答案

要了解如何解释 cid,您需要了解两件事:

  1. 相关字体的注册表订购补充 (ROS) 信息。它通常类似于“Adobe-Japan1-5”,是存储在字体中的信息属性。 ROS 决定如何解释 CID。

  2. 有了 ROS 信息,选择一个兼容的 CMap 并通过它解码。您可以在 http://sourceforge.net/projects/cmap.adobe/files/ 找到 Adob​​e 定义的 ROS 的 CMap 文件。

有关直接来自发明人的 CID 和 CMap 的更多信息,请访问 http://www.adobe.com/content/dam/Adobe/en/devnet/font/pdfs/5014.CIDFont_Spec.pdf

检查 decode CID font codes to equivalent ASCII characters了解更多信息

关于python - 这是什么(cid :51) in the output of pdf2txt?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16523767/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com