gpt4 book ai didi

elasticsearch - 配置ElasticSearch附件映射器以使用OCR插件

转载 作者:行者123 更新时间:2023-12-03 01:03:59 24 4
gpt4 key购买 nike

我使用附件映射器安装了 flex 搜索,然后在同一台机器上安装了tesseract OCR,我的目标是能够通过 flex 搜索索引图像。

目前,我能够使用 flex 解析和索引Microsoft Office文件,但不能解析图像,因为某种程度上, flex 需要知道机器上已安装tesseract并将图像传递给它以提取文本。

tesseract安装很好,因为我可以独立使用它,对使其与 flex 一起工作有帮助吗?

最佳答案

tesseract已在Apache Tika中启用。因此,您可以使用Elasticsearch Ingest Attachment plugin在Tika中使用 Activity 的OCR索引图像。

我仅使用位于/org/apache/tika/parser/ocr/TesseractOCRConfig.properties的类路径中的其他属性文件在Tika中启用了OCR。配置的是语言和tesseract位置:

language=deu+eng
tesseractPath=D:\programs\Tesseract-OCR

因此,基本上,您需要做的就是创建保存属性文件的目录结构,并将其添加到类路径中。

希望这可以帮助

康拉德。

关于elasticsearch - 配置ElasticSearch附件映射器以使用OCR插件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33307541/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com