gpt4 book ai didi

perl - 在perl中解析pdf

转载 作者:行者123 更新时间:2023-12-01 02:43:01 26 4
gpt4 key购买 nike

我正在尝试从 pdf 中提取一些信息。我正在尝试使用 getpdftext.pl来自 CAM::PDF模块。当我刚刚运行 $~ getpdftext.pl sample.pdf ,它将pdf的文本生成到stdout。

但我正在考虑将其写入文本文件并解析 perl 中的必填字段。有人可以指导我如何做到这一点吗?

但是当我尝试调用 pdftotext.pl在我的 perl 脚本中,我得到一个 No such file错误。

#program 从pdf中提取文本并将其保存在文本文件中

use PDF;

use CAM::PDF;

use CAM::PDF::PageText;

use warnings;

use IPC::System::Simple qw(system capture);

$filein = 'sample.pdf';
$fileout = 'output1.txt';

open OUT, ">$fileout" or die "error: $!";

open IN, "getpdftext.pl $filein" or die "error :$!" ;

while(<IN>)
{
print OUT $fileout;
}

最佳答案

让 getpdftext.pl 做你想做的事情可能会更容易。

使用 getpdftext.pl 中的代码,这个(未经测试的代码)应该将 pdf 输出到文本文件。

my $filein = 'sample.pdf';                                                                   
my $fileout = 'output1.txt';

my $doc = CAM::PDF->new($filein) || die "$CAM::PDF::errstr\n";
open my $fo, '>', $fileout or die "error: $!";

foreach my $p ( 1 .. $doc->numPages() ) {
my $str = $doc->getPageText($p);
if (defined $str) {
CAM::PDF->asciify(\$str);
print $fo $str;
}
}

close $fo;

关于perl - 在perl中解析pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7681207/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com