gpt4 book ai didi

java - 无法使用 TesseractOCRConfig Apache Tika 提取扫描的 pdf

转载 作者:塔克拉玛干 更新时间:2023-11-01 21:53:36 27 4
gpt4 key购买 nike

我的 pdf 包含扫描图像,我想从中提取文本。

我尝试了什么:我尝试使用 AutoDetectParsers 但没有输出。

我遵循了 Apache Tika extract scanned PDF files 中提供的解决方案以及 https://issues.apache.org/jira/browse/TIKA-1729 的 Apache Tika Jira但是没有任何错误地得到空字符串。

我的配置:Win 7 64 位操作系统,JDK 1.8.0_45。

欢迎任何形式的帮助。

最佳答案

解决此问题的步骤:

  1. 使用 Windows 的“tesseract-ocr-setup-3.05.00dev.exe”在您的系统中安装 Tesseract 来自:https://sourceforge.net/projects/tesseract-ocr-alt/files/并在您的配置中设置它的位置。

    Java 代码:

    Parser parser = new AutoDetectParser();
    BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
    TesseractOCRConfig config = new TesseractOCRConfig();
    config.setTesseractPath(tPath);
    PDFParserConfig pdfConfig = new PDFParserConfig();
    pdfConfig.setExtractInlineImages(true);
    pdfConfig.setExtractUniqueInlineImagesOnly(false); // set to false if pdf contains multiple images.
    ParseContext parseContext = new ParseContext();
    parseContext.set(TesseractOCRConfig.class, config);
    parseContext.set(PDFParserConfig.class, pdfConfig);
    //need to add this to make sure recursive parsing happens!
    parseContext.set(Parser.class, parser);
  2. Maven 依赖:

<dependencies>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers</artifactId>
<version>1.13</version>
</dependency>
<dependency>
<groupId>com.levigo.jbig2</groupId>
<artifactId>levigo-jbig2-imageio</artifactId>
<version>1.6.5</version>
</dependency>
<dependency>
<groupId>com.github.jai-imageio</groupId>
<artifactId>jai-imageio-core</artifactId>
<version>1.3.1</version>
</dependency>
</dependencies>

我认为这可能会有所帮助。谢谢。

关于java - 无法使用 TesseractOCRConfig Apache Tika 提取扫描的 pdf,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39762841/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com