gpt4 book ai didi

java - 如何使用 Tesseract 从 Tika OCR 中提取值

转载 作者:行者123 更新时间:2023-12-03 21:20:29 30 4
gpt4 key购买 nike

你好,我正在尝试使用 Tesseract 和 Tika 从图像中提取文本内容

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();

TesseractOCRConfig config = new TesseractOCRConfig();
config.setTesseractPath("/usr/local/bin/");
ParseContext parseContext = new ParseContext();
parseContext.set(TesseractOCRConfig.class, config);



try {
parser.parse(stream, handler, metadata, parseContext);
} finally {
stream.close();
}

System.out.println(handler.toString());

我总是收到一个空值?我不确定如何从解析器中获取内容,有人可以帮助我吗?

最佳答案

你不必声明 config.setTesseractPath("/usr/local/bin/") 如果你的系统路径中有 tesseract,请先检查它例如:

public static boolean checkIfExecutableInPath(String exec) {
String path = System.getenv("PATH");
if (StringUtils.isNotBlank(path)) {
for (String dir : path.split(":")) {
if (new File(dir, exec).exists()) {
return true;
}
}
}
return false;
}

并添加到您的代码中:

if (!checkIfExecutableInPath("tesseract")) {
config.setTesseractPath(pathToTesseractDir);
}

关于java - 如何使用 Tesseract 从 Tika OCR 中提取值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31322402/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com