gpt4 book ai didi

perl - 如何从 Perl 对 PDF 文件进行全文搜索?

转载 作者:行者123 更新时间:2023-12-04 05:35:56 25 4
gpt4 key购买 nike

我有一堆 PDF 文件,我的 Perl 程序需要对它们进行全文搜索,以返回哪些文件包含特定字符串。
到目前为止,我一直在使用这个:

my @search_results = `grep -i -l \"$string\" *.pdf`;

其中 $string 是要查找的文本。
然而,这对于大多数 pdf 来说都失败了,因为文件格式显然不是 ASCII。

我能做什么最简单?

澄清:
大约有 300 个 pdf 的名字我事先不知道。 PDF::Core 可能有点矫枉过正。鉴于我不知道 pdf 的名称,我试图让 pdftotext 和 grep 相互配合,我还找不到正确的语法。

使用 Adam Bellaire 建议的最终解决方案如下:
@search_results = `for i in \$( ls ); do pdftotext \$i - | grep --label="\$i" -i -l "$search_string"; done`;

最佳答案

PerlMonks 线程 here谈到这个问题。

似乎对于您的情况,获取 可能最简单。 pdftotext (命令行工具),然后您可以执行以下操作:

my @search_results = `pdftotext myfile.pdf - | grep -i -l \"$string\"`;

关于perl - 如何从 Perl 对 PDF 文件进行全文搜索?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/139015/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com