gpt4 book ai didi

node.js - 如何在不使用 Base64 的情况下在 ElasticSearch 中索引二进制文件

转载 作者:太空宇宙 更新时间:2023-11-03 23:29:43 26 4
gpt4 key购买 nike

我正在使用 NodeJS elasticsearch 包与 ElasticSearch 交互。我有一个包含 file 字段的文档。我希望能够将文件上传到索引,但我发现的唯一方法是使用 elasticsearch-mapper-attachment 插件。

问题是,如果我使用它,我必须将整个文件加载到内存中,将其编码为 Base64,然后将字符串传递给 ElasticSearch。

我希望能够将 Stream 传递到 ElasticSearch(引用任何二进制文件:pdf、xls、doc、ppt)。

最佳答案

elasticsearch-mapper-attachment 插件解析上传的二进制文件并使用内置 Tika 提取器提取文本以进一步建立索引。

某些应用程序的功能(例如 Search Technology 的 Aspire) - 它们通过 Tika 在本地运行二进制文件,提取文本并上传该文本以及要索引的文档。

这可能不是您正在寻找的答案,但您实际上只有两个选择 - 使用Elastic插件(并在将文档上传到elastic之前将二进制文件转换为yoru代码中的base64),或者解析二进制文件并提取代码中的文本,然后将该文本上传到elastic。前者更容易,后者让您可以更好地控制流程

关于node.js - 如何在不使用 Base64 的情况下在 ElasticSearch 中索引二进制文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39759459/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com