gpt4 book ai didi

Perl PDF 逐行解析器?

转载 作者:行者123 更新时间:2023-12-04 16:08:08 28 4
gpt4 key购买 nike

我有一个 pdf 文件,仅包含文本,没有特殊字符或图像等。是否有任何 Perl 模块(一直在查看 cpan 无济于事)来帮助我逐行解析每个页面?(将 PDF 转换为文本会产生不良结果和无法解析的数据)

谢谢

最佳答案

当我想从 PDF 中提取文本时,我将其输入 pdftohtml (Poppler 的一部分)使用 -xml输出选项。这会生成一个 XML 文件,我使用 XML::Twig 对其进行解析。 (或者您喜欢的任何其他 XML 解析器,除了 XML::Simple)。

The XML format相当简单。您会得到 <page> PDF 中每个页面的元素,其中包含 <fontspec>描述所使用字体的元素和 <text>每行文本的元素。 <text>元素可能包含<b><i>粗体和斜体文本的标签(这就是 XML::Simple 无法正确解析它的原因)。

您确实需要使用topleft <text> 的属性标签以使它们按正确的顺序排列,因为它们不一定按从上到下的顺序发出。坐标系以页面左上角为0,0,下、右为正。尺寸以 PostScript 点为单位(每英寸 72 点)。

关于Perl PDF 逐行解析器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5021737/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com