gpt4 book ai didi

java - 使用 Apache Tika + Tesseract 提取扫描 PDF 的速度很慢

转载 作者:太空宇宙 更新时间:2023-11-04 10:56:51 29 4
gpt4 key购买 nike

来自Apache Tika extract scanned PDF files ,它非常适合扫描文档。但问题是,它花费了太多时间以及 CPU 利用率。

就我而言,具有 23 页15 MB 文件大约需要 ~4.5 分钟,这太长了。请在下面找到我的工作代码,

Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);

TesseractOCRConfig config = new TesseractOCRConfig();
PDFParserConfig pdfConfig = new PDFParserConfig();
pdfConfig.setExtractInlineImages(true);

ParseContext parseContext = new ParseContext();
parseContext.set(TesseractOCRConfig.class, config);
parseContext.set(PDFParserConfig.class, pdfConfig);
//need to add this to make sure recursive parsing happens!
parseContext.set(Parser.class, parser);

Metadata metadata = new Metadata();
parser.parse(inputStream, handler, metadata, parseContext);
String content = handler.toString();

如何使其更优化/更快?有什么建议吗?

最佳答案

正如 @Gagravarr 在评论中提到的,这不是 Tika 的缓慢,因为 Tesseract 是 CPU 消耗过程。

为了处理它,我使用 FIFO 方法将此进程分离到另一台服务器上。这样一次只处理一个文件。

关于java - 使用 Apache Tika + Tesseract 提取扫描 PDF 的速度很慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47283682/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com