gpt4 book ai didi

image-processing - 对抗锯齿文本进行 OCR

转载 作者:行者123 更新时间:2023-12-02 01:23:00 24 4
gpt4 key购买 nike

我必须从 PDF 文档中 OCR 表格。我编写了简单的 Python+opencv 脚本来获取单个单元格。之后新的问题又出现了。文本已抗锯齿且质量不佳。tesseract 的识别率很低。我尝试过使用自适应阈值来预处理图像,但结果并没有好多少。我已经尝试过 ABBYY FineReader 的试用版,确实它提供了良好的输出,但我不想使用非自由软件。我想知道一些预处理是否可以解决问题,或者是否有必要编写和学习其他 OCR 系统。

最佳答案

如果仔细观察抗锯齿文本示例,您会发现边缘包含大量红色和蓝色:

enlarged view of antialiased text

这表明抗锯齿正在您的计算机内部进行,该计算机已使用 subpixel rendering优化液晶显示器的结果。

如果是这样,以更高分辨率提取文本应该很容易。例如,您可以使用 ImageMagick 通过使用如下命令行从 300 dpi 的 PDF 文件中提取图像:

convert -density 300 source.pdf output.png

您甚至可以尝试在您喜欢的查看器中加载 PDF 并将文本直接复制到剪贴板。

<小时/>

附录:

我尝试将您的示例文本转换回其原始像素并应用评论中提到的缩放技术。结果如下:

原图:
original image

缩放 300% 并应用简单阈值后:
scaled and thresholded image

智能缩放和阈值处理后:
smart scaled and thresholded image

正如您所看到的,有些字母仍然有点畸形,但我认为使用 Tesseract 阅读此内容的机会更大。

关于image-processing - 对抗锯齿文本进行 OCR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21827854/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com