python - 在 python 中将 tesseract 3.02 的 C API 与 ctypes 和 cv2 结合使用-6ren

python - 在 python 中将 tesseract 3.02 的 C API 与 ctypes 和 cv2 结合使用

转载作者：太空狗更新时间：2023-10-30 00:40:52

24

4

我正在尝试在 python 中将 Tesseract 3.02 与 ctypes 和 cv2 结合使用。 Tesseract 提供了一组 DLL 暴露的 C 风格 API，其中之一如下:

TESS_API void  TESS_CALL TessBaseAPISetImage(TessBaseAPI* handle, const unsigned char* imagedata, int width, int height, int bytes_per_pixel, int bytes_per_line);

到目前为止，我的代码如下:

tesseract = ctypes.cdll.LoadLibrary('libtesseract302.dll')
api = tesseract.TessBaseAPICreate()
tesseract.TessBaseAPIInit3(api, '', 'eng')
imcv = cv2.imread('test.bmp')
w, h, d = imcv.shape
ret = tesseract.TessBaseAPISetImage(api, ctypes.c_char_p(str(imcv.data)), w, h, d, w * d)
#ret = 44 here

最后一行返回错误代码 44，我在 Tesseract 提供的 errcode.h 中找不到任何地方。我不确定我在这里做错了什么。

我发现了类似的问题 How to recognize data not filename using ctypes and tesseract 3.0.2? ，但是问题没有解决。我也知道 https://code.google.com/p/python-tesseract/ , 我深入研究了这个项目的源代码，但没有找到我需要的信息。

我可以通过调用 cv2.imshow 确认 test.bmp 中的图像是合法且可读的。同样的图像也可以通过 Tesseract 在命令行上进行 OCR。

最佳答案

默认的restype是c_int，默认的整数参数转换也是c_int。您会在 Web 上找到假设 32 位平台具有 sizeof(int) == sizeof(void *) 的示例。这从来都不是一个好的假设。要保护 64 位指针在与 Python 整数相互转换时不被截断，请设置函数指针的 argtypes 和 restype。无论如何这样做都是一个好主意，因为它允许 ctypes 在使用错误的类型或数量的参数时引发 ArgumentError。

如果您不想为每个函数都定义原型(prototype)，那么至少将 TessBaseAPICreate.restype 设置为一个不透明的指针类型。

以下 ctypes 定义基于 header api/capi.h .为方便起见，我将 API 打包到 Tesseract 类中。

import sys
import cv2
import ctypes
import ctypes.util

if sys.platform == 'win32':
    LIBNAME = 'libtesseract302'
else:
    LIBNAME = 'tesseract'

class TesseractError(Exception):
    pass

class Tesseract(object):
    _lib = None
    _api = None

    class TessBaseAPI(ctypes._Pointer):
        _type_ = type('_TessBaseAPI', (ctypes.Structure,), {})

    @classmethod
    def setup_lib(cls, lib_path=None):
        if cls._lib is not None:
            return
        if lib_path is None:
            lib_path = ctypes.util.find_library(LIBNAME)
            if lib_path is None:
                 raise TesseractError('tesseract library not found')
        cls._lib = lib = ctypes.CDLL(lib_path)

        # source:
        # https://github.com/tesseract-ocr/tesseract/
        #         blob/3.02.02/api/capi.h

        lib.TessBaseAPICreate.restype = cls.TessBaseAPI

        lib.TessBaseAPIDelete.restype = None # void
        lib.TessBaseAPIDelete.argtypes = (
            cls.TessBaseAPI,) # handle

        lib.TessBaseAPIInit3.argtypes = (
            cls.TessBaseAPI, # handle
            ctypes.c_char_p, # datapath
            ctypes.c_char_p) # language

        lib.TessBaseAPISetImage.restype = None
        lib.TessBaseAPISetImage.argtypes = (
            cls.TessBaseAPI, # handle
            ctypes.c_void_p, # imagedata
            ctypes.c_int,    # width
            ctypes.c_int,    # height
            ctypes.c_int,    # bytes_per_pixel
            ctypes.c_int)    # bytes_per_line

        lib.TessBaseAPIGetUTF8Text.restype = ctypes.c_char_p
        lib.TessBaseAPIGetUTF8Text.argtypes = (
            cls.TessBaseAPI,) # handle

    def __init__(self, language='eng', datapath=None, lib_path=None):
        if self._lib is None:
            self.setup_lib(lib_path)
        self._api = self._lib.TessBaseAPICreate()
        if self._lib.TessBaseAPIInit3(self._api, datapath, language):
            raise TesseractError('initialization failed')

    def __del__(self):
        if not self._lib or not self._api:
            return
        if not getattr(self, 'closed', False):
            self._lib.TessBaseAPIDelete(self._api)
            self.closed = True

    def _check_setup(self):
        if not self._lib:
            raise TesseractError('lib not configured')
        if not self._api:
            raise TesseractError('api not created')

    def set_image(self, imagedata, width, height,
                  bytes_per_pixel, bytes_per_line=None):
        self._check_setup()
        if bytes_per_line is None:
            bytes_per_line = width * bytes_per_pixel
        self._lib.TessBaseAPISetImage(self._api,
                                      imagedata, width, height,
                                      bytes_per_pixel, bytes_per_line)

    def get_utf8_text(self):
        self._check_setup()
        return self._lib.TessBaseAPIGetUTF8Text(self._api)

    def get_text(self):
        self._check_setup()
        result = self._lib.TessBaseAPIGetUTF8Text(self._api)
        if result:
            return result.decode('utf-8')

示例用法:

if __name__ == '__main__':
    imcv = cv2.imread('ocrtest.png')
    height, width, depth = imcv.shape

    tess = Tesseract()
    tess.set_image(imcv.ctypes, width, height, depth)
    text = tess.get_text()

    print text.strip()

我在 Linux 上使用 libtesseract.so.3 对此进行了测试。请注意，cv2.imread 返回一个 NumPy 数组。这有一个 ctypes 属性，其中包括 _as_parameter_ Hook ，设置为指向数组的 c_void_p 指针。另请注意，问题中显示的代码的宽度和高度已调换。它应该是 h, w, d = imcv.shape。

ocrtest.png:

ocrtest

输出:

I am trying to use Tesseract 3.02 with ctypes and cv2 in python. Tesseract
provides a DLL exposed set of C style APIs, one of them is as following:

关于python - 在 python 中将 tesseract 3.02 的 C API 与 ctypes 和 cv2 结合使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21745205/

24

4

0

文章推荐： c# - 从 mobi 文件获取封面图片

文章推荐： c# - 我应该明确断言计数还是结果？

文章推荐： python - PyCharm SQLAlchemy 自动完成

文章推荐： c# - 如何在 Windows 8.1 中获取 MessageBox 图标

c++ - 错误信息 : no match for call to ‘(cv::Rect) (cv::Mat&, cv::Point_, cv::Point, cv::Scalar, int)’
我到处都找了很多，找不到我的问题的答案。我试图从这个线程复制一个文本检测软件(Extracting text OpenCV)但是在代码的末尾有一条消息错误说没有匹配的矩形，即使我已经在上面绘制了一个并
c++ - 使用 "const cv::Mat &"、 "cv::Mat &"、 "cv::Mat"或 "const cv::Mat"作为函数参数的区别？
我已经彻底搜索过，但没有找到直接的答案。将 opencv 矩阵 (cv::Mat) 作为参数传递给函数，我们传递的是智能指针。我们对函数内部的输入矩阵所做的任何更改也会改变函数范围之外的矩阵。我读
c++ - cv::Mat aaa(); 之间的区别和 cv::Mat aaa=cv::Mat();
在我的应用程序中，我有一个通过引用接收 cv::Mat 对象的函数。这是函数的声明: void getChains(cv::Mat &img,std::vector &chains,cv::
c++ - 使用 cv::waitKey 而不必先调用 cv::namedWindow 或 cv::imshow
我正在使用 Qt 编写一个 GUI 程序，并使用 OpenCV 进行一些视频处理。我在主 GUI 线程的标签中显示 OpenCV 进程(在单独的线程中)的结果。我遇到的问题是 cv::waitKey
c++ - 如果 a 是 cv::Mat 和 cv::Mat b=a.row(1)，那么这两个 cv::Mat 实例有什么区别？
Mat a = (Mat_(3,3) = 2 int dims; //! the number of rows and columns or (-1, -1) when the arr
c++ - 我在 C++ 中遇到错误 - 错误 : cannot convert ‘cv::Point_’ to ‘cv::Point* {aka cv::Point_*}’ in return
我尝试运行下面的代码，但出现错误。我正在为名为“Mat::at”的 OpenCV 函数创建一个包装器，并尝试使用“G++”将其编译为 Ubuntu Trusty 上的“.so”。我在下面列出了“.cp
c# - EmguCV 捕获错误 : Cannot implicitly convert type 'Emgu.CV.Mat' to 'Emgu. CV.Image
我在 C# 中使用 EmguCV，当我想从网络摄像头抓取帧时遇到问题，语句中出现红色下划线: imgOrg = capturecam.QueryFrame(); error: Cannot impli
c++ - 将 cv::Mat A 的每个成员与 cv::Mat B 合并，以创建一个带有 [a(x,y),b(x,y)] 的 cv::Mat C
我正在尝试从另外两个矩阵生成一个 cv::Mat C，以便获得第三个矩阵，该矩阵由通过组合矩阵 A 和 B 的一维点生成的二维点构成。我的问题是，我尝试的所有操作都只是连接矩阵，并没有真正将每个点与
python - 打开 CV cv.imread 修改图片
我用 cv.imread在 python 中读取 png 文件。然后当我使用 cv.imwrite立即保存图像的功能我然后发现图像中的颜色略有变化。我正在尝试在此图像上执行字符识别，而 OCR 在 p
opencv - cv::bitwise_not on cv::Mat 矩阵
我尝试将 cv::bitwise_not 转换为 double 值的 cv::Mat 矩阵。我申请了 cv::bitwise_not(img, imgtemp); img是0和1的CV_64F数据。但
r - cv.glmnet 和 Leave-one out CV
我正在尝试使用函数 cv.glmnet 找到最佳的 lambda(使用 RIDGE 回归)以预测某些对象的归属类别。所以我使用的代码是: CVGLM<-cv.glmnet(x,y,nfolds=34,
c++ - 使用 cv::Mat1f 作为 cv::Mat
我有这个方法: static void WriteMatVect(const std::string& filename, const std::vector& mats); ... void Fil
image-processing - cv Remap 替换 cv WarpPerspective
下面的转换是我想要做的。对于源图像中的每个图 block ，我知道每个角的坐标，并且我知道输出图像中每个对应角的坐标，所以我可以调用 cvWarpPerspective 扭曲每个图 block ，然
opencv - 如何将Emgu::CV::Mat转换为OpenCV cv::Mat，反之亦然？
我必须在C++ / CLI中的托管和非托管代码中都使用OpenCV。我正在尝试在托管代码中使用Emgu CV来包装OpenCV对象，但是在进行转换时遇到了麻烦。我该怎么做: Emgu::CV::M
c++ - cv::imwrite 不保存 CV_32FC4 cv::Mat
我正在尝试在 cv::Mat 中使用 CV_32FC4，以便它存储 RGBA32 图像。但是当我使用 cv::imwrite 将其保存为 png 文件时，结果文件始终是一个空图像。例如，我创建了这样
c++ - Unresolved external cv::flip cv::imshow
无法在 VS 2017 中设置 OpenCV。我做错了什么？是的，我已将所有其他帖子设为红色。代码: #include "opencv2/highgui/highgui.hpp" u
c++ - 从两个 cv::Mat 和一个掩码构造 cv::Mat
我有两个(相同大小，相同类型)cv:Mat 让我们称它们为 A,B。我还有另一个 cv::Mat，它是一个掩码(0 和 1 值或其他值，0 和 255 也适用)让我们称它为 M。我需要构造一个新的
c++ - 如何将 cv::Scalar 分配给 cv::Mat？
使用 OpenCV 中实现的 Scalar 类，我不明白这段代码有什么区别: Mat test; test = Scalar::all(0); 还有这个: Mat test = Scalar::all
c++ - 迭代器属于此代码中的内容 "cv::Mat_::iterator"
我对这行代码感到困惑: cv::Mat_::iterator 我知道 Mat_ 属于 cv 命名空间和 vec3b 也。但是之后的最后一个 :: 操作符和 iterator 让我感到困惑!它也属于 c
c++ - 如何将 cv::Mat 转换为 cv::Vec3f？
我想优雅地将 Mat 转换为 Vec3f。目前我是这样做的: Mat line; Vec3f ln; ln[0] = line.

首页

博学

6Ren·AI

商城

python - 在 python 中将 tesseract 3.02 的 C API 与 ctypes 和 cv2 结合使用