作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试让我的程序使用 Tesseract 识别中文,并且它有效。我遇到的唯一问题是将结果打印为汉字,结果是用拼音打印(你如何将中文单词输入为英文)。
# Import libraries
from PIL import Image
import pytesseract
from unidecode import unidecode
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"
image_counter = 2
filelimit = image_counter - 1
outfile = "out_text.txt"
f = open(outfile, "a")
for i in range(1, filelimit + 1):
print("ran")
filename = "page_" + str(i) + ".png"
# Recognize the text as string in image using pytesserct
text = unidecode(((pytesseract.image_to_string(Image.open(filename), lang = "chi_sim"))))
print(text)
这是我运行的图像
这是我得到的
跑了
清明世解与分分,陆商行人与断缺
新文旧家何出友,木易通之强化村。
结果应该是如图所示的汉字。
最佳答案
没关系,我意识到我的问题了。
text = unidecode(((pytesseract.image_to_string(Image.open(filename), lang = "chi_sim"))))
应该是
text = pytesseract.image_to_string(Image.open(filename), lang = "chi_tra")
关于python - 如何用汉字打印 tesseract 结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57866592/
我是一名优秀的程序员,十分优秀!