gpt4 book ai didi

elasticsearch - 从结果中排除相似的文件(重复项)

转载 作者:行者123 更新时间:2023-12-02 23:35:07 25 4
gpt4 key购买 nike

我存储了一些新闻来源的所有文章。源自例如Cnn.com,可能会被其他人转发。实际上,我最终多次保存了相同的文章。

如果我搜索“特斯拉”,我可能会得到3篇彼此相等90%的文章。我可以使用Levenshtein distance在我的应用程序中比较和过滤重复项,但是我宁愿使用ES对其进行过滤。

有什么办法可以说give me all articles matching WORD, but only return the first if other hits are more than 90% equal to the first吗?

干杯,
马丁

最佳答案

如果您真的需要将所有这些记录保留在ES中(而不是在索引编制之前使用levenshtein过滤掉),那么您可能正在寻找字段折叠的top hits aggregations

也看看this SO question

关于elasticsearch - 从结果中排除相似的文件(重复项),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31962452/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com