gpt4 book ai didi

elasticsearch - 配置ElasticSearch相关性分数,以便优先选择所有单词,而不是某些单词?

转载 作者:行者123 更新时间:2023-12-02 23:54:18 24 4
gpt4 key购买 nike

例如,通过搜索“堆栈溢出”,我希望同时包含“堆栈”和“溢出”的文档的得分要高于仅包含这些单词之一的文档。

现在,我看到的情况是,包含“堆栈” 0次和“溢出” 50次的文档的排名高于包含“堆栈” 1次和“溢出” 1次的文档的排名。

第二个关注点是将具有确切单词而不是单词变体的文档排名更高。例如,包含“堆栈”的文档的排名应高于包含“堆栈”的文档的排名。

第三个问题是将具有相邻单词的文档排名更高。例如,文档“如何使用纸堆溢出”的排名应高于文件“纸堆导致收件箱溢出”。

如果将这三个问题放在一起,则这是“堆栈溢出”的所需结果等级的示例:

Example search results

是否可以配置索引或查询以这种方式计算分数?

最佳答案

在这里,您试图在单个查询中实现多项目标。首先,您应该尝试了解ES如何为您返回结果。

  • 包含溢出 50次的文档被排在包含“stack” 1次和“overflow” 1次的文档之上,因为ES分数计算基于基于tf/idf的分数计算。很明显,在这种情况下,溢出达到50倍,这比其他2个频率的总和还高
    其他文档中的术语。

  • 注意:-您可以按照链接中所述禁用此计算。

    If you don’t care about how often a term appears in a field and all you care about is that the term is present, then you can disable term frequencies in the field mapping:


  • 由于stemming,您将获得包含术语stacking的结果,如果您不希望包含stacking的文档不出现在搜索结果中,则不要以词干形式记录文档或从中获取结果后进行一些后处理ES并降低他们的分数,不确定ES是否开箱即用。
  • 您想要的第三件事是phrase search

  • 还可以使用 explain api来了解ES如何通过查询来计算文档的分数,这将帮助您根据需要构建正确的查询。

    关于elasticsearch - 配置ElasticSearch相关性分数,以便优先选择所有单词,而不是某些单词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54892553/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com