gpt4 book ai didi

elasticsearch - Elasticsearch中的规范,文档频率和建议

转载 作者:行者123 更新时间:2023-12-03 02:04:01 24 4
gpt4 key购买 nike

如果我有一个名为name的字段,并且我使用了describe api来获得有关拼写错误的建议,是否需要启用文档频率或规范才能做出准确的建议?我的假设是肯定的,但我很好奇,即使在主索引字段中禁用了Lucene中是否有单独的建议索引来处理频率和/或规范。

最佳答案

我怀疑建议程序是否可以在没有字段长度归一化的情况下工作,因为禁用规范意味着您正在寻找一个二进制值,无论该术语是否存在于文档字段中,而这反过来又会影响每个文档的相似性评分。

These three factors—term frequency, inverse document frequency, and field-length norm—are calculated and stored at index time. Together, they are used to calculate the weight of a single term in a particular document.

“但我很好奇,也许在Lucene中是否有一个单独的建议索引可以处理频率和/或规范,即使我在我的主要索引中将该字段禁用了。”
默认情况下,任何建议者都将使用 vector 空间模型来计算余弦相似度,而余弦相似度又将使用在索引期间为每个术语建立的基于tf-idf-norm的评分来对建议进行排名,因此我怀疑建议者是否可以准确地对文档进行评分而无需字段规范。

相关性评分背后的理论:

http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/scoring-theory.html#field-norm

关于elasticsearch - Elasticsearch中的规范,文档频率和建议,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28598511/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com