- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
据我了解,min_term_freq=2
会查看输入文本,并且该词仅在出现至少两次时才用于搜索。
但是min_doc_freq
是什么意思?该文件说
The minimum document frequency below which the terms will be ignored from the input document. Defaults to 5.
最佳答案
Lucene评分公式使用TF-IDF权重来反射(reflect)单词对语料库中文档的意义。
Therefore, the terms of the input document that have the highest tf-idf are good representatives of that document, and could be used within a disjunctive query (or OR) to retrieve similar documents.
The MLT query simply extracts the text from the input document, analyzes it, usually using the same analyzer at the field, then selects the top K terms with highest tf-idf to form a disjunctive query of these terms.
min_doc_freq
允许设置一个阈值,低于该阈值的
docFreq
小于此值的任何项(在选定的具有最高tf-idf的K个项中)将被从输入文档中忽略。例如,
min_doc_freq=5
术语必须至少出现在5个文档中,否则将从MLT查询中排除。这在您希望MLT仅在查询条件产生一个地址明确的主题(至少在5个文档中得到寻址)的情况下返回与给定文档相似的文档的情况下很有用。
docFreq
,这是针对索引查询的TermStatistics。
max_doc_freq
忽略频繁出现的单词(例如停用词)。
关于elasticsearch - min_doc_freq如何在“类似此查询”中工作?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57016402/
我是一名优秀的程序员,十分优秀!