gpt4 book ai didi

sql-server - 删除文档中的重复记录(Elasticsearch)

转载 作者:行者123 更新时间:2023-12-02 22:28:12 25 4
gpt4 key购买 nike

我正在编写自己的用于Elasticsearch和SQL Server之间集成的应用程序,并且正在将所有数据从SQL Server中的选定表发送到Elasticsearch,但是我有一个问题。

如果我在应用程序中进行设置,该应用程序将每分钟钩到该表,它将每分钟再次将这些记录存储在Elasticsearch中。这在Elasticsearch文档中产生了很多重复的记录。

Elasticsearch中是否有一个查询可以检查是否有重复记录(每个属性中都重复)并删除重复记录?

最佳答案

可以完成此操作,但不能通过特殊查询来完成,而可以更改索引文档的方式。

如何确保唯一文件?

这个问题可能已经回答了here,重点是明确定义插入文档的 _id

为了实现您想要的功能,您可以尝试在将整个json的哈希值发送给Elasticsearch并将其用作_id之前对其进行计算。 (确保将json以稳定的方式序列化为字符串,就像 sort_keys 在python中一样。)

如果您还有其他唯一标识符,最好使用它代替数据散列。

不幸的是,现有索引应该重新索引(使用以新方式计算的_id)。

希望有帮助!

关于sql-server - 删除文档中的重复记录(Elasticsearch),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55117085/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com