gpt4 book ai didi

elasticsearch - 在索引时间合并来自不同来源的数据

转载 作者:行者123 更新时间:2023-12-03 01:51:31 28 4
gpt4 key购买 nike

我有两个文件搜寻器作业,分别使用fscrawler(https://github.com/dadoonet/fscrawler)对彼此相关的数据运行。现在,我想在建立索引时将数据合并在一起(子- parent 关系或平面文档可以),因此需要一些中间件。查看Logstash和ES 5.0中的新Ingest Node功能,似乎没有一个人支持编写自定义处理器。

有没有可能在索引时间进行这种合并/关系映射?还是我必须进行后处理?

编辑:一项工作以json格式抓取“文章”。文章可以在不同位置具有多个附件(在json的附件数组中声明)。第二项工作是对实际附件(例如pdf ...)进行抓取,然后对其进行TIKA处理。最后,我想提供一种文章类型,其中还包含附件的内容。

最佳答案

如果将两个文档都加载到不同的ES索引中,则可能会有一个LS输入,用于查找尚未(尚未)包含附件内容的文章。对于这些文档,您可以查询其他elasticsearch索引(请参阅LS中的elasticsearch {}过滤器)并更新文章文档。

关于elasticsearch - 在索引时间合并来自不同来源的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40043449/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com