gpt4 book ai didi

ocr - 如何在 pytesseract 中使用经过训练的数据?

转载 作者:行者123 更新时间:2023-12-04 12:21:37 24 4
gpt4 key购买 nike

使用此工具 http://trainyourtesseract.com/我希望能够在 pytesseract 中使用新字体。该工具给了我一个名为 *.traineddata 的文件

现在我正在使用这个简单的脚本:

try:
import Image
except ImportError:
from PIL import Image
import pytesseract as tes

results = tes.image_to_string(Image.open('./test.jpg'),boxes=True)
file = open('parsing.text','a')
file.write(results)
print(results)

如何使用我的训练数据文件,以便我能够使用 python 脚本读取新字体?

谢谢 !

编辑#1:所以我明白 *.traineddata可以作为命令行程序与 Tesseract 一起使用。所以我的问题还是一样,我如何在 python 中使用traineddata?

编辑#2:我的问题的答案在这里 How to access the command line for Tesseract from Python?

最佳答案

下面是带有选项的 pytesseract.image_to_string() 示例。

pytesseract.image_to_string(Image.open("./imagesStackoverflow/xyz-small-gray.png"),
lang="eng",boxes=False,
config="--psm 4 --oem 3
-c tessedit_char_whitelist=-01234567890XYZ:"))

要使用您自己训练的语言数据,只需将 "eng" 中的 lang="eng" 替换为您的语言 name(.traineddata)

关于ocr - 如何在 pytesseract 中使用经过训练的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44183679/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com