- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我的系统中有很多 PDF 文档,有时我注意到文档是基于图像的,没有编辑功能。在这种情况下,我在 Foxit PhantomPDF 中进行 OCR 以更好地搜索,您可以在其中对多个文件进行 OCR。我想找到我的所有基于图像的 PDF 文档。
我不明白 PDF 阅读器如何识别文档的 OCR 不是文本。这些读者必须访问某些字段。这也可以在终端中访问。这个答案给出了如何在线程 Check if a PDF file is a scanned one 中进行的公开建议。 :
Your best bet might be to check to see if it has text and also see if it contains a large pagesized image or lots of tiled images which cover the page. If you also check the metadata this should cover most options.
我想更好地理解如何有效地做到这一点,因为如果存在一些元字段,那么它会很容易。但是,我还没有找到这样的元字段。我认为最可能的方法是查看页面是否包含具有用于搜索的 OCR 的页面大小的图像,因为它很有效并且已经在某些 PDF 阅读器中使用。但是,我不知道该怎么做。
在休变换中,参数空间的超正方形中有特定选择的参数。它的复杂性 $O(A^{m-2})$ 其中 m 是您看到的参数数量,如果参数多于参数,问题就很困难。 A 是图像空间的大小。福昕阅读器在其实现中最有可能使用了 3 个参数。边缘容易检测,保证效率,必须在Hugh变换前完成。损坏的页面将被忽略。其他两个参数仍然未知,但我认为它们必须是节点和一些交叉点。这些交叉点是如何计算的是未知的?确切问题的表述是未知的。
该命令在 Debian 8.5 中有效,但我最初无法在 Ubuntu 16.04 中使其正常工作
masi@masi:~$ find ./ -name "*.pdf" -print0 | xargs -0 -I {} bash -c 'export file="{}"; if [ $(pdffonts "$file" 2> /dev/null | wc -l) -lt 3 ]; then echo "$file"; fi'
./Downloads/596P.pdf
./Downloads/20160406115732.pdf
^C
操作系统:Debian 8.5 64 位
Linux 内核:向后移植 4.6
硬件:华硕Zenbook UX303UA
最佳答案
聚会迟到了,这里有一个简单的解决方案,暗示已经包含字体的 pdf 文件不仅仅基于图像:
find ./ -name "*.pdf" -print0 | xargs -0 -I {} \
bash -c 'export file="{}"; \
if [ $(pdffonts "$file" 2> /dev/null | \
wc -l) -lt 3 ]; then echo "$file"; fi'
单行
find ./ -name "*.pdf" -print0 | xargs -0 -I {} bash -c 'export file="{}"; if [ $(pdffonts "$file" 2> /dev/null | wc -l) -lt 3 ]; then echo "$file"; fi'
解释:pdffonts file.pdf
如果 pdf 包含文本,将显示多于 2 行。输出所有不包含文本的 pdf 文件的文件名。
我的具有相同功能的 OCR 项目在 Github 中 deajan/pmOCR .
关于java - 如何找到所有基于图像的 PDF?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34092991/
例如,我有一个父类Author: class Author { String name static hasMany = [ fiction: Book,
代码如下: dojo.query(subNav.navClass).forEach(function(node, index, arr){ if(dojo.style(node, 'd
我有一个带有 Id 和姓名的学生表和一个带有 Id 和 friend Id 的 Friends 表。我想加入这两个表并找到学生的 friend 。 例如,Ashley 的 friend 是 Saman
我通过互联网浏览,但仍未找到问题的答案。应该很容易: class Parent { String name Child child } 当我有一个 child 对象时,如何获得它的 paren
我正在尝试创建一个以 Firebase 作为我的后端的社交应用。现在我正面临如何(在哪里?)找到 friend 功能的问题。 我有每个用户的邮件地址。 我可以访问用户的电话也预订。 在传统的后端中,我
我主要想澄清以下几点: 1。有人告诉我,在 iOS 5 及以下版本中,如果您使用 Game Center 设置多人游戏,则“查找 Facebook 好友”(如与好友争夺战)的功能不是内置的,因此您需要
关于redis docker镜像ENTRYPOINT脚本 docker-entrypoint.sh : #!/bin/sh set -e # first arg is `-f` or `--some-
我是一名优秀的程序员,十分优秀!