gpt4 book ai didi

tesseract - 强制 Tesseract 匹配模式(连续四位数字)

转载 作者:行者123 更新时间:2023-12-04 16:49:19 32 4
gpt4 key购买 nike

我试图让 Tesseract(使用 Tess4J 包装器)仅匹配特定模式。该模式是连续四位数字,我认为是\d\d​​\d\d。这是我正在提供 tesseract 的图像的一个非常小子集(平面图受到限制,所以我很谨慎地发布更多):http://mike724.com/view/a06771

我正在使用以下 java 代码:

    File imageFile = new File("/<redacted>/file.pdf");

Tesseract instance = Tesseract.getInstance();
instance.setTessVariable("load_system_dawg", "F");
instance.setTessVariable("load_freq_dawg", "F");
instance.setTessVariable("user_words_suffix", "");
instance.setTessVariable("user_patterns_suffix", "\\d\\d\\d\\d");

try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}

我遇到的问题是 tesseract 似乎不支持这些配置选项,我仍然在结果中得到文本/单词。我希望只获得房间号(例如 2950)。

最佳答案

您没有正确配置。

user_patterns_suffix 用于指示包含您的模式的文本文件的文件扩展名,例如

user_patterns_suffix pats

意味着你需要在 tesseract tessdata 文件夹中放置一个文件

tessdata/eng.pats

...假设 eng 是您使用的语言。

在这里查看更多:

http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html#_config_files_and_augmenting_with_user_data

我确实记得用户模式在模式前不能短于 6 个固定字符,因此您可能无法在任何情况下完成此操作 - 但请先尝试正确的配置。

关于tesseract - 强制 Tesseract 匹配模式(连续四位数字),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27883090/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com