gpt4 book ai didi

android - 在 android 中为 tesseract OCR 导出 HOCR 输出

转载 作者:搜寻专家 更新时间:2023-11-01 08:53:10 27 4
gpt4 key购买 nike

我尝试使用 tess-two ,Tesseract Tools for Android 的一个分支。我想在 tesseract 中打开 hocr 输出,来自 link ,我尝试将变量 tessedit_create_hocr 设置为 true,但我在输出中看不到 hocr。这是我的尝试:

  baseApi.init(FileUtil.getAppFolder(), "eng", TessBaseAPI.OEM_TESSERACT_CUBE_COMBINED);
baseApi.setVariable("tessedit_create_hocr", "1")
baseApi.setImage(bitmap);
String recognizedText = baseApi.getUTF8Text();

有人告诉 hocr 输出应该在配置文件夹或包含图像的文件夹中,但我没有看到任何东西。任何我不知道如何配置 hocr 输出的文件名和位置。

另一件事:有什么方法可以将配置文件应用到 Android 的 Tesseract 工具中吗?我将配置文件放入 tessdata/config 文件夹,但没有任何反应。如何告诉 tesseract 应该读取这些配置文件?似乎他们没有足够的 android 文档。

更新:感谢@nguyenq,现在我可以获得HOCR数据。这是我的尝试:

  jstring Java_com_googlecode_tesseract_android_TessBaseAPI_nativeGetHOCRText(JNIEnv *env,
jobject thiz, jint page) {

native_data_t *nat = get_native_data(env, thiz);

char *text = nat->api.GetHOCRText(page);

jstring result = env->NewStringUTF(text);

free(text);

return result;
}

最佳答案

显然,tess-two 没有实现所有的 TessBaseAPI,因为它不包括对原生 GetHOCRText 方法的支持。您可能必须自己扩展包装器才能访问所需的功能。

配置文件用于命令行执行。或者,您可以通过公开的 API 方法 setVariable 设置必要的变量。

关于android - 在 android 中为 tesseract OCR 导出 HOCR 输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21248288/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com