gpt4 book ai didi

python-3.x - 如何在 Windows 上为 Tesseract 安装新的语言包

转载 作者:行者123 更新时间:2023-12-05 03:51:14 33 4
gpt4 key购买 nike

我已经在我的 venv 中安装了 pytesseract 模块,想从德语文件中提取文本

pytesseract并将语言设置为德语

import cv2

import pytesseract


try:
from PIL import Image
except ImportError:
import Image

print(pytesseract.image_to_string(Image.open('test.jpg')))

print(pytesseract.image_to_string(Image.open('test.jpg'), lang='ger'))

这给了我

raise TesseractError(proc.returncode, get_errors(error_string))
pytesseract.pytesseract.TesseractError: (1, 'Tesseract Open Source OCR Engine v3.05.00dev with Leptonica
Error opening data file C:\\Program Files (x86)\\Tesseract-OCR/tessdata/ger.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language \'ger\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')

我在 [tessdoc/Data-Files] ( https://github.com/tesseract-ocr/tessdoc/blob/master/Data-Files.md ) 上找到了语言数据

到目前为止我只找到了 linux 的指南 How do I install a new language pack for Tesseract on 16.04
我需要将 pyteseract sidepackage 中的语言文件移动到哪里才能使脚本正常工作?

最佳答案

有两种方法。

1。为您的语言安装相应的 tesseract 包 -

  • apt-get install tesseract-ocr-YOUR_LANG_CODE

例如-在我的例子中是孟加拉语,所以我安装了-

  • apt-get install tesseract-ocr-ben

或安装所有语言-

  • apt-get install tesseract-ocr-all

这适用于我的 Ubuntu 环境。

2。错误消息本身中提到了另一种方式。添加指向语言包的环境变量 TESSDATA_PREFIX。您可以从此处下载语言包:https://github.com/tesseract-ocr/tessdata

下载数据包后,您还可以通过编程方式将环境变量设置为

import os
os.putenv('TESSDATA_PREFIX','path/to/your/tessdata/file'

关于python-3.x - 如何在 Windows 上为 Tesseract 安装新的语言包,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63048908/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com