gpt4 book ai didi

elasticsearch - Elasticsearch聚合(重复)搜索未返回所有重复项

转载 作者:行者123 更新时间:2023-12-03 00:13:08 25 4
gpt4 key购买 nike

我正在搜索并计数单个或一组人类可读文档中的重复短语。我将每个文档分解为短语/句子,然后用这些短语填充一个Elasticsearch索引,每个ES文档一个。

我的索引中有707个文档。我知道至少应该有21份重复文件。我的搜索返回了19个重复的文档。我不明白为什么我错过了一些比赛。这是我的查询:

{
“大小”:0,
“ags”:{
“duplicateCount”:{
“条款”:{
“field”:“内容”,
“min_doc_count”:2
},
“ags”:{
“duplicateDocuments”:{
“top_hits”:{

}
}
}
}
}
}

我的过程:

  • 创建索引
  • 构建批量插入数据对象
  • 将文档批量插入索引
  • 重新索引文档
  • 运行重复查询(上方)
  • 解析结果-SUM buckets.doc_counts
  • 删除索引

  • 注:由于Elastic Search将匹配单词,而不是短语/句子,因此在插入索引之前,我md5对每个短语/句子进行哈希处理。

    可以提供更多细节(我不希望我的帖子太大)。

    为什么ES不返回所有重复项????

    谢谢

    更新:创建索引时,我将shards属性设置为1,这有助于返回更多重复项,但仍不是全部。

    最佳答案

    如果您知道该文档的大致大小,请如下添加:

     "aggs": {
    "productId": {
    "terms": {
    "field": "productId",
    "min_doc_count": 2,
    "size": 1000
    }
    }

    }

    请检查是否可以解决您的问题。

    关于elasticsearch - Elasticsearch聚合(重复)搜索未返回所有重复项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39082991/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com