gpt4 book ai didi

tesseract - 如何使用 python-tesseract 获取 Hocr 输出

转载 作者:行者123 更新时间:2023-12-01 09:20:20 25 4
gpt4 key购买 nike

我使用 pytesseract 获得了非常好的结果,但它无法保留双空格,它们对我来说非常重要。
而且,所以我决定检索 hocr 输出而不是纯文本。但是,似乎没有任何方法可以使用 pytessearct 指定配置文件。

那么,是否可以使用 pytesseract 指定配置文件,或者是否有一些默认配置文件可以更改以获得 hocr 输出?

#run method from pytessearct.py
def run_tesseract(input_filename, output_filename_base, lang=None, boxes=False, config=None):
'''
runs the command:
`tesseract_cmd` `input_filename` `output_filename_base`

returns the exit status of tesseract, as well as tesseract's stderr output

'''
command = [tesseract_cmd, input_filename, output_filename_base]

if lang is not None:
command += ['-l', lang]

if boxes:
command += ['batch.nochop', 'makebox']

if config:
command += shlex.split(config)
#command+=['C:\\Program Files (x86)\\Tesseract-OCR\\tessdata\\configs\\hocr']
#print "command:",command
proc = subprocess.Popen(command,
stderr=subprocess.PIPE)
return (proc.wait(), proc.stderr.read())

最佳答案

您可以使用另一个库在 Python 中使用 Tesseract:pyslibtesseract

图片:

enter image description here

代码:

import pyslibtesseract

tesseract_config = pyslibtesseract.TesseractConfig(psm=pyslibtesseract.PageSegMode.PSM_SINGLE_LINE, hocr=True)
print(pyslibtesseract.LibTesseract.simple_read(tesseract_config, 'phrase0.png'))

输出:
  <div class='ocr_page' id='page_1' title='image ""; bbox 0 0 319 33; ppageno 0'>
<div class='ocr_carea' id='block_1_1' title="bbox 0 0 319 33">
<p class='ocr_par' dir='ltr' id='par_1_1' title="bbox 10 13 276 25">
<span class='ocr_line' id='line_1_1' title="bbox 10 13 276 25; baseline 0 0"><span class='ocrx_word' id='word_1_1' title='bbox 10 14 41 25; x_wconf 75' lang='eng' dir='ltr'><strong>the</strong></span> <span class='ocrx_word' id='word_1_2' title='bbox 53 13 97 25; x_wconf 84' lang='eng' dir='ltr'><strong>book</strong></span> <span class='ocrx_word' id='word_1_3' title='bbox 111 13 129 25; x_wconf 79' lang='eng' dir='ltr'><strong>is</strong></span> <span class='ocrx_word' id='word_1_4' title='bbox 143 17 164 25; x_wconf 83' lang='eng' dir='ltr'>on</span> <span class='ocrx_word' id='word_1_5' title='bbox 178 14 209 25; x_wconf 75' lang='eng' dir='ltr'><strong>the</strong></span> <span class='ocrx_word' id='word_1_6' title='bbox 223 14 276 25; x_wconf 76' lang='eng' dir='ltr'><strong>table</strong></span>
</span>
</p>
</div>
</div>

关于tesseract - 如何使用 python-tesseract 获取 Hocr 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34248492/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com