- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们使用 php、pypdfocr 和 pdftotext 进行 OCR,并从扫描或传真给我们的文档中提取文本。问题是当文档被扫描或传真时上下颠倒,或者如果某些页面打算横向阅读(因此文本在页面上旋转 90 度)
我尝试过的事情:
为具有 90 度文本的页面生成的 OCR 文本层还不错,但是颠倒的页面,它对每个单词进行 OCR 并将其翻转到位,这样如果“这是一个测试”出现在文档中但是倒置然后文本层可能会显示为“test a is This”
如果有一种方法可以检测页面是否上下颠倒,我可以在通过 OCR 运行它之前使用 pdftk 旋转页面(或者如果它是 OCR,我可以删除文本层并通过使用pdftk旋转后再次OCR)
此时可以从 linux CLI 执行的任何解决方案都是可行的解决方案。
最佳答案
您可以使用 tesseract (>=3.03 ?) 轻松获取有关页面方向的信息。例如
$ tesseract image.png - -psm 0
将产生这个输出
Orientation: 3
Orientation in degrees: 90
Orientation confidence: 25.40
Script: 1
Script confidence: 18.40
根据此信息,您可以调整图像旋转。例如,如何在 python 中执行此操作可以是在脚本 Fix image rotation with tesseract .
关于php - 检测上下颠倒的 pdf 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31832964/
我正在尝试将我的本地功能分支 rebase 到名为“集成”的远程分支上。 所以我做了- git checkout feature git rebase integration 但在我的冲突解决编辑器中
我想使用模板来反转 XML 的不同序列; 例如 :
我正在尝试使用 Django 1.8 构建我的博客,但是我不知道如何订购这些博客。看图 我想在底部显示“最早”,在顶部显示“最新”。这是我的 index.html {% extends 'layout
我正在使用 socket.io 并向客户端发送一条消息,其中包含应附加到 div 的数据: socket.on('new data', function(data){ $('#containe
如果我遗漏了明显的内容,我深表歉意...... 我正在使用 rgl 绘制 3d 曲面。我的代码是 library(rgl) dem1 = read.table(file="file.txt",skip
如何使用纯 CSS 反转 div 子元素的顺序? 例如: 我要 A B C D 显示为: D C B A 我在 JSfiddle 上创建了一个演示: http://
是否反转中的属性 到 削弱或以任何方式影响搜索引擎索引页面的能力? 谢谢:) 最佳答案 我们不可能知道。搜索引擎可能有错误。 但从 HTML 规范的角度来看,不,属性顺序不影响含义。 关于html
我正在使用 CABasicAnimation 绘制我在数组中使用 CAShapeLayer 的所有 UIBezierPaths CAShapeLayer *shapeLayer = [CAShapeL
我在我的 iPhone 应用程序中使用 core plot 1.0。一切正常,图表绘制完美,但我面临一个奇怪的问题,即图表页面 (CPTPGraphHostingView) 上的所有控件都被镜像。 即
我是一名优秀的程序员,十分优秀!