gpt4 book ai didi

ocr - 为 Tesseract OCR 创建训练图像

转载 作者:行者123 更新时间:2023-12-04 08:36:28 27 4
gpt4 key购买 nike

我正在编写一个用于训练 Tesseract OCR 图像的生成器。

在为 Tesseract OCR 的新字体生成训练图像时,最佳值是什么:

  • 新闻部
  • 以磅为单位的字体大小
  • 字体是否应该抗锯齿
  • 边界框是否应该紧贴:enter image description here ,与否:enter image description here
  • 最佳答案

    第二个问题在这里得到了某种回答:http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images
    无需使用多种尺寸进行训练。 10点就行。 (一个异常(exception)是非常小的文本。如果你想识别 x 高度小于 15 像素的文本,你应该在尝试识别它们之前专门训练它或缩放你的图像。)

    问题 1 和 3:根据经验,我已成功使用 300 dpi 图像/非抗锯齿字体。更具体地说,我在训练 pdf 上使用了以下转换参数,生成了令人满意的图像:

    convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif

    但是后来我尝试向 Tesseract 添加虚线字体,当我使用 150 dpi 图像时,它只能正确检测字符。所以,我认为没有通用的解决方案,这取决于您尝试添加的字体类型。

    关于ocr - 为 Tesseract OCR 创建训练图像,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13414285/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com