gpt4 book ai didi

elasticsearch - min_doc_freq如何在“类似此查询”中工作?

转载 作者:行者123 更新时间:2023-12-03 01:28:56 24 4
gpt4 key购买 nike

据我了解,min_term_freq=2会查看输入文本,并且该词仅在出现至少两次时才用于搜索。

但是min_doc_freq是什么意思?该文件说

The minimum document frequency below which the terms will be ignored from the input document. Defaults to 5.



但是我不知道这意味着什么?它是查看输入文档还是索引的其余部分?

最佳答案

Lucene评分公式使用TF-IDF权重来反射(reflect)单词对语料库中文档的意义。

Therefore, the terms of the input document that have the highest tf-idf are good representatives of that document, and could be used within a disjunctive query (or OR) to retrieve similar documents.



这就是“更喜欢此”组件使用此数字统计的原因。

The MLT query simply extracts the text from the input document, analyzes it, usually using the same analyzer at the field, then selects the top K terms with highest tf-idf to form a disjunctive query of these terms.



idf代表出现给定术语的文档数量的倒数:出现在每个文档中的术语将被认为是不相关的(文档频率较高,因此idf较低)。

就是说,在一个文档中仅出现一次的单词也可能是错字,lorem ipsum摘录或类似的东西:这个词没有任何意义,但具有明显的tf-idf权重,因此需要离开一些“房间”以避免由“理论意义”引起的问题。
min_doc_freq允许设置一个阈值,低于该阈值的 docFreq小于此值的任何项(在选定的具有最高tf-idf的K个项中)将被从输入文档中忽略。例如, min_doc_freq=5术语必须至少出现在5个文档中,否则将从MLT查询中排除。这在您希望MLT仅在查询条件产生一个地址明确的主题(至少在5个文档中得到寻址)的情况下返回与给定文档相似的文档的情况下很有用。

那么,它查看输入文档还是索引的其余部分?
两者:从输入文档开始,它需要前K个词,并且每个词都需要检查它们的 docFreq,这是针对索引查询的TermStatistics。

在相同的上下文中,您将使用 max_doc_freq忽略频繁出现的单词(例如停用词)。

https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-mlt-query.html

关于elasticsearch - min_doc_freq如何在“类似此查询”中工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57016402/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com