gpt4 book ai didi

perl - 使用 perl 检测并删除 PDF 文件中的空白页

转载 作者:行者123 更新时间:2023-12-02 00:14:39 27 4
gpt4 key购买 nike

有没有一种可靠的方法可以用 perl 脚本检测空白页?我尝试通过使用 getPageText 方法来执行以下脚本。如果我这样做,只包含图形而没有文本的页面也会被识别为空白页。

#!/usr/bin/perl -w

use CAM::PDF;
my $filename=$ARGV[0];
my $doc = CAM::PDF->new($filename) || die "$CAM::PDF::errstr\n";
my $pages = $doc->numPages();
print $pages;

$content=$doc->getPageText(1);
print "length".length($content);
if(length($content)==0)
{
print "File is empty";
}

foreach my $p ( 1 .. $doc->numPages() ) {
my $str = $doc->getPageText($p);
$str =~ m/[[:alnum:]]+/ms ); # actually returned text
print "Result text:".qq($str);
}

有没有其他方法可以找到空白页?

最佳答案

抱歉,无法可靠地检测空白页。

但是,我过去这样做过:

我使用 pdftk 将 pdf 分成一页 pdf 文档。如果其中一个 pdf 尺寸非常小,则它不包含图像。如果 pdftotext 返回空字符串,则它不包含文本。使用 pdftk 将所有好的 pdf 组合成一个。

希望对您有所帮助。

关于perl - 使用 perl 检测并删除 PDF 文件中的空白页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13841856/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com