ocr - OCR 简介-6ren

ocr - OCR 简介

转载作者：行者123 更新时间：2023-12-04 12:13:21

26

4

有人给了我一大堆惊人的信息。它是 200MB 的 .tiff 扫描公告图像，可以追溯到 40 年代。我想将其数字化，但我对 OCR 一无所知。一些早期的 Material 几乎无法被人类阅读，更不用说机器了。它也是希伯来语。

我正在寻找有关如何处理此问题的建议。关于书籍、文章、代码库或软件的好建议(所有这些都应该在网络上免费提供)。我精通 C++ 和 Python，如果需要，可以选择另一种语言。

谢谢你。

最佳答案

对于使用 OCR 库的 Python 来说，这听起来像是一项伟大的任务。一个快速的谷歌搜索出现 pytesser :

PyTesser is an Optical Character Recognition module for Python. It takes as input an image or image file and outputs a string.

PyTesser uses the Tesseract OCR engine, converting images to an accepted format and calling the Tesseract executable as an external script. A Windows executable is provided along with the Python scripts. The scripts should work in other operating systems as well.

...

Usage Example
>>> from pytesser import *
>>> image = Image.open('fnord.tif')  # Open image object using PIL
>>> print image_to_string(image)     # Run tesseract.exe on image
fnord
>>> print image_file_to_string('fnord.tif')
fnord

关于ocr - OCR 简介，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5845033/

26

4

0

文章推荐： Django:当数据通过管理面板更改时自动使缓存无效？

文章推荐： r-tree - 如何使用给定的数据点构造 RTree

文章推荐： visual-studio-2010 - 向 Visual Studio 2010 添加新字体

『Echarts』简介
目录一、前言二、『Echarts』简介 1. 什么是『Echarts』三、数据可视化四、『Echarts』
Golang学习笔记（一）：简介
Go语言最主要的特性复制代码代码如下: 自动垃圾回收更丰富的内置类型函数多返回值错误处理匿名函数和闭包类型和接口并发编程反射语言交互性
ASP中FSO的神奇功能 - 简介
在ASP中，FSO的意思是File System Object，即文件系统对象。　　我们将要操纵的计算机文件系统，在这里是指位于web服务器之上。所以，确认你对此拥有合适的权限。理
Java 简介
Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计语言和Java平台的总称。由James Gosling和同事们共同研发，并在1995年正式推出。 Ja
C# 简介
C# 是一个现代的、通用的、面向对象的编程语言，它是由微软（Microsoft）开发的，由 Ecma 和 ISO 核准认可的。 C# 是由 Anders Hejlsberg 和他的团队在 .Net
SQL 简介
SQL 是一门 ANSI 的标准计算机语言，用来访问和操作数据库系统。SQL 语句用于取回和更新数据库中的数据。SQL 可与数据库程序协同工作，比如 MS Access、DB2、Informix、M
01、Storm 简介
什么是Apache Storm？ Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架，具有最高的摄取率。虽然Storm
02、SQLite 简介
SQLite 简介本教程帮助您了解什么是 SQLite，它与 SQL 之间的不同，为什么需要它，以及它的应用程序数据库处理方式。 SQLite是一个软件库，实现了自给自足的、无服务器的、零配置的
01、Gradle 简介
简介介绍很高兴能向大家介绍 Gradle，这是一个基于 JVM 的富有突破性构建工具。它为您提供了: 一个像 ant 一样，通用的灵活的构建工具一种可切换的，像 maven
1、Hystrix 简介
hystrix介绍 Hystrix 供分布式系统使用，提供延迟和容错功能，隔离远程系统、访问和第三方程序库的访问点，防止级联失败，保证复杂的分布系统在面临不可避免的失败时，仍能有其弹性。 hyst
02、设计模式 – 简介
设计模式（Design pattern）是重构解决方案这点很重要，尤其是现在 B/S 一统天下的局面，过早考虑设计模式，得不偿失设计模式（Design pattern）代表了最佳的实
02、Ruby 简介
Ruby 是一种纯粹的面向对象编程语言。 Ruby 由日本的松本行弘（まつもとゆきひろ/Yukihiro Matsumoto）创建于1993年。 Ruby 是 "程序员的最佳朋友&quo
10、OWL 简介
OWL设计的初衷是处理 web 信息学习 OWL 之前应具备的基础知识 OWL是基于 XML 和 RDF,所以，在我们开始学习 OWL 之前，希望你对 XML、XML 命名空间以及 RDF 有基
02、RDF 简介
资源描述框架（RDF）是用于描述网络资源的 W3C 标准，比如网页的标题、作者、修改日期、内容以及版权信息你应当具备的基础知识在继续学习之前，我们希望你对下面的知识有基本的了解 HT
02、Perl 简介
Perl 像 C 一样强大，像 awk、sed 等脚本描述语言一样方便 Perl 又名实用报表提取语言，是 Practical Extraction and Report Language 的缩写
02、AWK 简介
AWK是一个命令行工具，它和其它的 Unix/Linux 命令行工具，比如 curl 和 wget 一样，没有界面。 AWK是一门语言，对的，一门语言，而且是一个解释性编程语言。 AWK设计之初就
02、WSDL 简介
WSDL 是基于 XML 的用于描述 Web Services 以及如何访问 Web Services 的语言学习 WSDL 之前应当具备的基础知识在继续学习之前，我们希望你对下面的知识有基本
02、JSON 简介
我们提供了 Web 版的 JSON 编辑器，你可以依托于我们的 Web 编辑器编辑 JavaScript 代码，然后通过点击一个按钮来查看结果 <!DOCTYPE html> <h
02、SVG 简介
SVG是使用 XML 来描述二维图形和绘图程序的语言, SVG 画出来的图形具有可伸缩不失真的特性学习之前应具备的基础知识：继续学习之前，我们应该对以下内容有基本的了解，这样更能方便你了解一些
02、XML 简介
XML设计的初衷是用来传输和存储数据继续学习 XML 教程前应该掌握的基础知识在我们继续学习 XML 之前，希望你对知识有基本的了解 1、 HTML； 2、 JavaScript；如果你

首页

博学

6Ren·AI

商城

ocr - OCR 简介

Usage Example