gpt4 book ai didi

perl - 在 Perl 中从 pdf 读取文本时遇到问题

转载 作者:行者123 更新时间:2023-12-01 01:22:01 26 4
gpt4 key购买 nike

我正在尝试将 pdf 文件的文本内容读入 Perl 变量。从其他 SO 问题/答案中,我感觉到我需要使用 CAM::PDF .这是我的代码:

#!/usr/bin/perl -w

use CAM::PDF;
my $pdf = CAM::PDF->new('1950-01-01.pdf');
print $pdf->numPages(), " pages\n\n";

my $text = $pdf->getPageText(1);
print $text, "\n";

我尝试在 this pdf file 上运行它. Perl 没有报告错误。第一个打印语句有效;它打印“2 页”,这是本文档中的正确页数。

下一个打印语句不返回任何可读内容。以下是 Emacs 中的输出:
2 pages

^A^B^C^D^E^C^F^D^G^H
^D^A^K^L^C^M^D^N^C^M^O^D^P^C^Q^Q^C ^D^R^K^M^O^D ^A^B^C^D^E
^F^G^G^H^E
^K^L
^M^N^E^O^P^E^O^Q^R^S^E
.... more lines with similar codes ....

有什么我可以做的事情吗?我不太了解pdf文件,但我认为因为我可以使用Acrobat轻松复制和粘贴PDF文件中的文本,因此必须将其识别为文本而不是图像,所以我希望这意味着我可以提取它使用 Perl。

任何指导将不胜感激。

最佳答案

我相当确定问题不在于您的 perl 代码,而在于 PDF 文件。我在我自己的一个 PDF 文件上运行了相同的脚本,它工作得很好。

关于perl - 在 Perl 中从 pdf 读取文本时遇到问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8611530/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com