gpt4 book ai didi

java - 如何使用java忽略Tesseract OCR中的特殊字符

转载 作者:行者123 更新时间:2023-12-02 11:39:10 25 4
gpt4 key购买 nike

我使用 java 通过 Tesseract OCR 从图像中提取文本。但输出由一些特殊字符组成,因为图像包含一些符号。

我想忽略所有特殊字符并仅显示文本。有什么办法可以做到这一点吗?

最佳答案

在tesseract中,您可以设置TessBaseAPI.VAR_CHAR_WHITELISTTessBaseAPI.VAR_CHAR_BLACKLIST以忽略一些特殊字符。

以下将使 tesseract 只识别 A-Z 和数字

String whiteList = "ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789";
tessBaseApi.setVariable(TessBaseAPI.VAR_CHAR_WHITELIST,whiteList);

下一个片段将允许您识别除 ~ 和 fl 之外的所有内容

String blackList = "~fl";
tessBaseApi.setVariable(TessBaseAPI.VAR_CHAR_BLACKLIST,blackList );

另请注意,如 tesseract github issue 中所述,您不能使用 tesseract 4.0 Alpha LSTM 将字符列入黑名单或白名单,相反,您应该使用您期望的字符来训练 LSTM图片。

当然,如果你愿意 - 你仍然可以使用 3.* 版本的 tesseract,它的 tessdata 位于 here

关于java - 如何使用java忽略Tesseract OCR中的特殊字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48702490/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com