gpt4 book ai didi

php - 检测上下颠倒的 pdf 页面

转载 作者:行者123 更新时间:2023-12-03 23:07:51 25 4
gpt4 key购买 nike

我们使用 php、pypdfocr 和 pdftotext 进行 OCR,并从扫描或传真给我们的文档中提取文本。问题是当文档被扫描或传真时上下颠倒,或者如果某些页面打算横向阅读(因此文本在页面上旋转 90 度)

我尝试过的事情:

  • 在 tessdata cp eng.traineddata osd.traineddata

为具有 90 度文本的页面生成的 OCR 文本层还不错,但是颠倒的页面,它对每个单词进行 OCR 并将其翻转到位,这样如果“这是一个测试”出现在文档中但是倒置然后文本层可能会显示为“test a is This”

如果有一种方法可以检测页面是否上下颠倒,我可以在通过 OCR 运行它之前使用 pdftk 旋转页面(或者如果它是 OCR,我可以删除文本层并通过使用pdftk旋转后再次OCR)

此时可以从 linux CLI 执行的任何解决方案都是可行的解决方案。

最佳答案

您可以使用 tesseract (>=3.03 ?) 轻松获取有关页面方向的信息。例如

$ tesseract image.png -  -psm 0

将产生这个输出

Orientation: 3
Orientation in degrees: 90
Orientation confidence: 25.40
Script: 1
Script confidence: 18.40

根据此信息,您可以调整图像旋转。例如,如何在 python 中执行此操作可以是在脚本 Fix image rotation with tesseract .

关于php - 检测上下颠倒的 pdf 页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31832964/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com