gpt4 book ai didi

Elasticsearch 附件插件 vs 自己的 tika 实现

转载 作者:行者123 更新时间:2023-12-02 22:44:37 27 4
gpt4 key购买 nike

我想使用 Tika 工具包来索引文档文件(pdf、docx...)和图像(通过 tesseract 插件)的内容。

我试过弹性摄取附件插件 ( https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html ) 它工作得很好但没有内置 OCR。而且我必须发送我的文件的 base64,所以高内存使用 + 弹性索引“数据”(base64)字段是无用的。

我正在考虑直接使用 Tika 工具包,然后在 ElasticSearch 中索引内容。

所以我想知道这是否是更好的方法?

最佳答案

我们创建了一个系统来处理文件(抓取 -> OCR -> 索引 -> 搜索)。它叫做Ambar .我们构建它的想法是为 Ingest Attachment 创建一个良好而可靠的替代品。

作为搜索引擎,我们使用 ElasticSearch 作为上下文提取器:Tika + Tesseract + ImageMagick + PDF 的自定义提取器。

我们制作它是为了提供一个简单但功能强大的替代方案,以替代我们自己的 Tika + ES 实现。

查看 Github以获取更多详细信息。

关于Elasticsearch 附件插件 vs 自己的 tika 实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40452555/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com