gpt4 book ai didi

ocr - 为 Tesseract OCR 引擎添加 Blackletter 字体支持

转载 作者:行者123 更新时间:2023-12-04 15:47:44 24 4
gpt4 key购买 nike

我正在努力让 Lincoln 字体在 Tesseract 中工作,但我得到了糟糕的结果,即使在经历了 wildly complicated training process 之后也是如此。 .

这就是字体的样子,是的,有点棘手:

Lincoln sample

我精心制作了一张训练图像,然后用它制作了一个盒子文件。 The training image is here (25MB!) .图像为 300 DPI,具有代表性的字符在垂直和水平方向上间隔得很好。

我为训练图像做了一个盒子文件,它工作正常。我已经使用 a box file editor 验证了它是正确的.

我拿了这个盒子文件/tif 文件,并用它来创建训练数据。我对 30 or so other sample images/fonts 也做了同样的事情由 Tesseract 提供。

我创建了 unicharset 文件。

我创建了一个 font_properties 文件。该网站上没有关于何时应使用 fraktur 的指导。所以我已经尝试过这两种方式(林肯的 fraktur on):

eng.lincoln.box 0 0 0 0 1

这样(fraktur 关闭):

eng.lincoln.box 0 0 0 0 0

最后,我已经尝试过使用和不使用字典文件。当我使用字典文件时,它们是来 self 的搜索引擎 Sphinx 的字图,它们有大约 15,000 个常用词和大约 20,000 个不常用词。

在所有情况下,当我尝试对 this file (3MB) 的前几行进行 OCR 时,质量很差。而不是得到:

United States Court of Appeals 
for the Federal Circuit

我得到:

OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit

为什么?

最佳答案

我认为您需要更多的样本(字母)和更好的训练图像(干净的背景、灰度、300 DPI 等)。并首先尝试只使用一种字体(例如 Lincoln)进行训练。您可以使用 jTessBoxEditor生成训练图像和编辑框文件的工具。

一旦您掌握了训练过程,您就可以将其他字体添加到您的训练中。您可以通过使用它对训练图像本身执行 OCR 来测试生成的语言数据是否成功——识别率应该很高。

font_properties 中的字体名称应该是这样的:

林肯 0 0 0 0 1

关于ocr - 为 Tesseract OCR 引擎添加 Blackletter 字体支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9047740/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com