apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser？-6ren

apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser？

转载作者：行者123 更新时间：2023-12-05 02:15:32

27

4

我已经安装了 apache Tika 1.8，除了 OCR 部分不工作外，它运行完美。我安装了 Tesseract，它也能正常工作。当我尝试发送带有图像的 pdf 时，我得到以下信息。

警告:Tesseract OCR 已安装并将自动应用于图像 f除非您已经从默认解析器中排除了 TesseractOCRParser。Tesseract 可能会显着降低内容提取速度 (TIKA-2359)。从 Tika 1.15(和之前的版本)开始，Tesseract 被自动调用。在未来版本的 Tika 中，用户可能需要通过以下方式打开 TesseractOCRParser TikaConfig.

Can I configure the TikaConfig using the command line utility ? Or do I have to clone the project and update poms and rebuild. I really do not want to have to do that.

这里有一些关于如何使用命令行实用程序和 TikaConfig 的信息，但我不知道如何使用它启用 TesseractOCRParser。

任何帮助，不胜感激。

最佳答案

好的，在 Apache Tika Forum 上的这篇帖子的帮助下谢谢你们。

我设法让它工作了。这是一个黑客，但它有效。我所做的是提取 Tika-app Jar 文件。然后找到 PDFParser.properties 并像这样更改以下属性

extractInlineImages true 
extractUniqueInlineImagesOnly false 
ocrStrategy ocr_and_text_extraction

然后找到 TesseractOCRConfig.properties。并将这一属性更改为 1..

enableImageProcessing=1

保存以上属性文件。再拉上 zipper 。并使用新的压缩 jar 文件，它现在将从 pdf 文件的图像中提取文本和文本。

关于apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51655510/

27

4

0

文章推荐： regex - 如何使用正则表达式提取子字符串？

文章推荐： azure - 复制事件失败并出现以下错误

c# - 如何检测不同的用户设置？启用 Javascript，启用 Cookie
我想知道如何首先检测 Javascript 是否启用/禁用。在此站点上禁用 javascript 表明 stackoverflow 使用了称为标签的东西。这是标准的做法吗？它适用于所有浏览器吗？它不
PHP 启用
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: How to enable PHP short tags ? Enable short open tags
c# - 启用 SourceLink
在 VSTS (Azure DevOps) 上拥有私有(private)存储库我尝试通过将以下内容添加到 .csproj 文件来启用 SourceLink:https://github.com/dot
wxPython 框架禁用/启用？
我创建了一个 wx.Frame(我们称之为 mainFrame)。该框架上包含一个按钮，当单击该按钮时，会创建一个新框架(我们称之为 childFrame)。我想知道如何在创建 childFrame
WPF 启用/禁用控件
当我禁用 WPF 中的控件时，比如说一个菜单项 MenuItem aMenuItem = ... aMenuItem.IsEnabled = false; MenuItem 中的文本仍然处于事件状态，
Nginx 启用 gzip
我想在我的 nginx 服务器上启用 gzip 压缩。 nginx.conf 文件在这里: http { # Enable Gzip server { location ~* \.(?
Heroku - 启用/禁用每周备份
我正在使用免费的 heroku 附加 PG 备份并遵循这些 instructions .我找到了安装应用程序的命令:heroku addons:add pgbackups:auto-week。但是我想
javascript - 启用/禁用输入元素的脚本？
我想知道脚本是否可以使用某种切换按钮启用/禁用页面上的所有输入元素。我用谷歌搜索了它，但除了这个之外没有发现任何有用的东西: http://www.codetoad.com/javascript/e
jQuery:启用/禁用日期选择器
在我的 php 文件中，我想使用 jQuery Datepicker。当我的文件加载时，我创建了禁用的日期选择器。然后，当我的 php 文件(它是一个表单)中的一个特殊字段被填充时，我想启用日期选
c# - 启用/禁用按钮
我有一个按钮，如下所示: RadButton lnkAdd = new RadButton(); lnkAdd.ID = "BtnAdd"; lnkAdd.CommandName = RadGrid.
c# - 启用/禁用任务管理器
public static void ToggleTaskManager(string keyValue) { RegistryKey objRegistryK
azure - 启用/禁用事件订阅
我正在 Azure 中使用事件网格订阅，该订阅在创建 Blob 时触发。然而，我们有很多文件进入这个 blob，比如说 1000 多个。如果我发现任何文件有任何错误，我想做的是禁用事件订阅。最佳答
javascript - 启用/禁用内容上的按钮可编辑键盘
我的网站上有几个使用 HTML5 contentEditable 属性的 div。目标是让用户能够开始编写日记条目，并将保存按钮从禁用更改为启用。这是我目前拥有的 HTML: Write
javascript - 启用/禁用范围输入
我有一个范围输入，其定义如下: @Html.LabelFor(m => Model.Quality, Resources.CompressionQuality) 和一个下拉菜单: @Html.Lab
javascript - 启用/禁用按钮的下拉菜单
我正在尝试创建一个启用/禁用按钮的下拉菜单，并且我正在关注此 example 但它已经有 4 年历史了，而且该功能似乎无法在我的 xhtml 页面上运行。任何帮助都将被适当最佳答案这是一个现场演
azure - 启用/禁用事件订阅
我正在 Azure 中使用事件网格订阅，该订阅在创建 Blob 时触发。然而，我们有很多文件进入这个 blob，比如说 1000 多个。如果我发现任何文件有任何错误，我想做的是禁用事件订阅。最佳答
.net - 启用/禁用代理应用程序不适用于IE
我在这里遇到一个非常奇怪的情况:我编写了一个应用程序，除其他外，将连接的代理从打开切换到关闭，反之亦然。通过更改注册表中的值来完成此操作: public void SetUpProxy(string
kubernetes - 启用 ExpandPersistentVolumes
我需要调整一堆 PVC 的大小。似乎最简单的方法是通过ExpandPersistentVolumes 功能。但是我无法获得配置合作。 ExpandPersistentVolumes feature g
ios - 启用/禁用时从TextColor之类的按钮更改BorderColor
如果我的TextField为空，则应禁用该按钮，并且该按钮的textColor和borderColor应该为灰色。但是，启用按钮后，颜色应为蓝色。更改textColor很容易: button.Set
java - 启用/禁用另一个类的表单按钮
您好，我的问题是:我无法从另一个类启用表单的按钮。我的表单类是 public class FileSending { //Function for enabling the button

首页

博学

6Ren·AI

商城

apache - 如何使用 TikaConfig 和 Tika 命令行实用程序启用 TesseractOCRParser？