gpt4 book ai didi

apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser?

转载 作者:行者123 更新时间:2023-12-05 02:15:32 27 4
gpt4 key购买 nike

我已经安装了 apache Tika 1.8,除了 OCR 部分不工作外,它运行完美。我安装了 Tesseract,它也能正常工作。当我尝试发送带有图像的 pdf 时,我得到以下信息。

警告:Tesseract OCR 已安装并将自动应用于图像 f除非您已经从默认解析器中排除了 TesseractOCRParser。Tesseract 可能会显着降低内容提取速度 (TIKA-2359)。从 Tika 1.15(和之前的版本)开始,Tesseract 被自动调用。在未来版本的 Tika 中,用户可能需要通过以下方式打开 TesseractOCRParser TikaConfig.

Can I configure the TikaConfig using the command line utility ? Or do I have to clone the project and update poms and rebuild. I really do not want to have to do that.

这里有一些关于如何使用命令行实用程序和 TikaConfig 的信息,但我不知道如何使用它启用 TesseractOCRParser。

任何帮助,不胜感激。

最佳答案

好的,在 Apache Tika Forum 上的这篇帖子的帮助下谢谢你们。

我设法让它工作了。这是一个黑客,但它有效。我所做的是提取 Tika-app Jar 文件。然后找到 PDFParser.properties 并像这样更改以下属性

extractInlineImages true 
extractUniqueInlineImagesOnly false
ocrStrategy ocr_and_text_extraction

然后找到 TesseractOCRConfig.properties。并将这一属性更改为 1..

enableImageProcessing=1

保存以上属性文件。再拉上 zipper 。并使用新的压缩 jar 文件,它现在将从 pdf 文件的图像中提取文本和文本。

关于apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51655510/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com