gpt4 book ai didi

pdf - 如何识别需要OCR的PDF文件?

转载 作者:行者123 更新时间:2023-12-04 12:24:13 25 4
gpt4 key购买 nike

我有超过 30,000 个 pdf 文件。有些文件已经是 OCR 了,有些还不是。有没有办法找出哪些文件已经进行了 OCR 处理,哪些 pdf 只是图像?

如果我通过 OCR 处理器运行每个文件,这将永远需要。

最佳答案

我会编写一个小脚本来从 PDF 文件中提取文本并查看它是否为“空”。如果有文本 PDF 已经被 OCR。您可以使用 ghostscriptXPDF提取文本。

编辑:
这应该让你开始:

foreach ($pdffile in get-childitem -filter *.pdf){
$pdftext=invoke-expression ("\path\to\xpdf\pdftotext.exe '"+$pdffile.fullname+"' -");
write-host $pdffile.fullname
write-host $pdftext.length;
write-host $pdftext;
write-host "-------------------------------";
}

不幸的是,即使您的 PDF 中只有图像 pdftotext将提取一些文本,因此您将需要做更多的工作来检查是否需要对 pdf 进行 OCR。

关于pdf - 如何识别需要OCR的PDF文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7740883/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com