gpt4 book ai didi

ocr - OCR 简介

转载 作者:行者123 更新时间:2023-12-04 12:13:21 26 4
gpt4 key购买 nike

有人给了我一大堆惊人的信息。它是 200MB 的 .tiff 扫描公告图像,可以追溯到 40 年代。我想将其数字化,但我对 OCR 一无所知。一些早期的 Material 几乎无法被人类阅读,更不用说机器了。它也是希伯来语。

我正在寻找有关如何处理此问题的建议。关于书籍、文章、代码库或软件的好建议(所有这些都应该在网络上免费提供)。我精通 C++ 和 Python,如果需要,可以选择另一种语言。

谢谢你。

最佳答案

对于使用 OCR 库的 Python 来说,这听起来像是一项伟大的任务。一个快速的谷歌搜索出现 pytesser :

PyTesser is an Optical Character Recognition module for Python. It takes as input an image or image file and outputs a string.

PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Python scripts. The scripts should work in other operating systems as well.

...

Usage Example

>>> from pytesser import *
>>> image = Image.open('fnord.tif') # Open image object using PIL
>>> print image_to_string(image) # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord

关于ocr - OCR 简介,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5845033/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com