image-processing - 对抗锯齿文本进行 OCR-6ren

image-processing - 对抗锯齿文本进行 OCR

转载作者：行者123 更新时间：2023-12-02 01:23:00

24

4

我必须从 PDF 文档中 OCR 表格。我编写了简单的 Python+opencv 脚本来获取单个单元格。之后新的问题又出现了。文本已抗锯齿且质量不佳。tesseract 的识别率很低。我尝试过使用自适应阈值来预处理图像，但结果并没有好多少。我已经尝试过 ABBYY FineReader 的试用版，确实它提供了良好的输出，但我不想使用非自由软件。我想知道一些预处理是否可以解决问题，或者是否有必要编写和学习其他 OCR 系统。

最佳答案

如果仔细观察抗锯齿文本示例，您会发现边缘包含大量红色和蓝色:

enlarged view of antialiased text

这表明抗锯齿正在您的计算机内部进行，该计算机已使用 subpixel rendering优化液晶显示器的结果。

如果是这样，以更高分辨率提取文本应该很容易。例如，您可以使用 ImageMagick 通过使用如下命令行从 300 dpi 的 PDF 文件中提取图像:

convert -density 300 source.pdf output.png

您甚至可以尝试在您喜欢的查看器中加载 PDF 并将文本直接复制到剪贴板。

<小时/>

附录:

我尝试将您的示例文本转换回其原始像素并应用评论中提到的缩放技术。结果如下:

原图:
original image

缩放 300% 并应用简单阈值后:
scaled and thresholded image

智能缩放和阈值处理后:
smart scaled and thresholded image

正如您所看到的，有些字母仍然有点畸形，但我认为使用 Tesseract 阅读此内容的机会更大。

关于image-processing - 对抗锯齿文本进行 OCR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21827854/

24

4

0

文章推荐： java - 0MQ ROUTER DEALER 范例在 Docker 容器中不起作用

文章推荐： java - 兼容性 jhipster 微服务 4.6.0 & 5.2.1 & 6.x.x

文章推荐： java - Twilio SMS api 不支持返回内容类型

文章推荐： Django查询: field is substring

python - 锯齿 tkinter 主循环帧持续时间？
尝试使用 tkinter 为一系列 PIL 图像制作动画。我的帧持续时间 (ms) 的图表如下所示: 有人知道是什么导致了这种尖尖的锯齿图案吗？这是一个重现的脚本: from PIL import
javascript - 用 Canvas 绘制的星爆形状看起来非常像素化(锯齿)
我正在尝试使用 Canvas 创建“星爆”效果，但线段出现令人难以置信的像素化。我做错了什么吗？ var rays = 40; var canvas = $("header canvas")[0];
r - glmer VS 锯齿 : different results in intercept-only hierarchical model
爪牙我在 JAGS 中有一个仅拦截逻辑模型，定义如下: model{ for(i in 1:Ny){ y[i] ~ dbern(mu[s[i]]) } for(j in 1:Ns){

首页

博学

6Ren·AI

商城

image-processing - 对抗锯齿文本进行 OCR