gpt4 book ai didi

java - 从多种格式的文件中提取文本并将其存储在 Elasticsearch 中

转载 作者:行者123 更新时间:2023-12-02 13:30:45 28 4
gpt4 key购买 nike

我需要提取存储在一个文件夹中的所有文件的内容,该文件夹的格式可以是pdf、worddoc、txt、msg、ppt等。现在我需要将内容存储在elasticsearch中。解决方案需要是构建管道架构。我计划使用 Apache TIKA 提取内容,然后将其存储在弹性中。有没有更好的方法来实现这个解决方案?

最佳答案

您应该调查ingest attachment plugin它捆绑了 Apache Tika 并完全满足您的需要,即从 PDF、DOC、PPT 等中提取内容。

安装即可

bin/elasticsearch-plugin install ingest-attachment

然后你可以创建一个新的管道

PUT _ingest/pipeline/attachment
{
"description" : "Extract attachment information",
"processors" : [
{
"attachment" : {
"field" : "data"
}
}
]
}

最后,您可以像这样索引您的文档:

PUT my_index/my_type/my_id?pipeline=attachment
{
"data": "e1xydGYxXGFuc2kNCkxvcmVtIGlwc3VtIGRvbG9yIHNpdCBhbWV0DQpccGFyIH0="
}

您可以在 https://www.elastic.co/guide/en/elasticsearch/plugins/5.3/using-ingest-attachment.html 找到更多使用信息

关于java - 从多种格式的文件中提取文本并将其存储在 Elasticsearch 中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43194439/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com