solr - solr 多值字段的评分-6ren

solr - solr 多值字段的评分

转载作者：行者123 更新时间：2023-12-03 14:47:13

25

4

如果我在 Solr 中有一个包含多值字段的文档，是多个值是独立评分的还是只是串联并评分为一个大字段？我希望他们是独立得分的。这是我的意思的一个例子:

我有一个包含一个人名字段的文档，其中同一个人可能有多个名字。名称都不同(在某些情况下非常不同)，但它们都是同一个人/文件。

第 1 个人:
大卫·鲍伊、大卫·罗伯特·琼斯、Ziggy Stardust、瘦白公爵

人 2:
大卫莱特曼

第 3 个人:
大卫·哈塞尔霍夫，大卫·迈克尔·哈塞尔霍夫

如果我要搜索“David”，我希望所有这些都有相同的匹配机会。如果每个名字都是独立评分的，情况似乎就是这样。如果它们只是作为单个字段存储和搜索，David Bowie 将因拥有比其他 token 多得多的 token 而受到惩罚。 Solr 如何处理这种情况？

最佳答案

您可以运行您的查询 q=field_name:David与 debugQuery=on看看会发生什么。

这些是按 fl=*,score 排序的结果(包括通过 score desc 的分数) :

<doc>
    <float name="score">0.4451987</float>
    <str name="id">2</str>
    <arr name="text_ws">
        <str>David Letterman</str>
    </arr>
</doc>
<doc>
    <float name="score">0.44072422</float>
    <str name="id">3</str>
    <arr name="text_ws">
        <str>David Hasselhoff</str>
        <str>David Michael Hasselhoff</str>
    </arr>
</doc>
<doc>
    <float name="score">0.314803</float>
    <str name="id">1</str>
    <arr name="text_ws">
        <str>David Bowie</str>
        <str>David Robert Jones</str>
        <str>Ziggy Stardust</str>
        <str>Thin White Duke</str>
    </arr>
</doc>

这是解释:

<lst name="explain">
    <str name="2">
        0.4451987 = (MATCH) fieldWeight(text_ws:David in 1), product of: 1.0 = tf(termFreq(text_ws:David)=1) 0.71231794 = idf(docFreq=3, maxDocs=3) 0.625 = fieldNorm(field=text_ws, doc=1)
    </str>
    <str name="3">
        0.44072422 = (MATCH) fieldWeight(text_ws:David in 2), product of: 1.4142135 = tf(termFreq(text_ws:David)=2) 0.71231794 = idf(docFreq=3, maxDocs=3) 0.4375 = fieldNorm(field=text_ws, doc=2)
    </str>
    <str name="1">
        0.314803 = (MATCH) fieldWeight(text_ws:David in 0), product of: 1.4142135 = tf(termFreq(text_ws:David)=2) 0.71231794 = idf(docFreq=3, maxDocs=3) 0.3125 = fieldNorm(field=text_ws, doc=0)
    </str>
</lst>

这里的评分因素是:

termFreq :一个词在文档中出现的频率

以色列国防军 :该词在索引中出现的频率

fieldNorm :术语的重要性，取决于索引时间提升和字段长度

在您的示例中 fieldNorm有所作为。您有一个文档的下级 termFreq (1 而不是 1.4142135)因为该术语只出现一次，但由于字段长度，该匹配更为重要。

您的字段是 multiValued 的事实不会改变评分。我想它与具有相同内容的单个值字段相同。 Solr 在字段长度和术语方面起作用，因此，是的，David Bowie 因拥有比其他 token 多得多的 token 而受到惩罚。 :)

更新
我实际上认为大卫鲍伊值得他的机会。如上所述， fieldNorm有所作为。添加属性 omitNorms=true给您的 text_ws schema.xml 中的字段并重新索引。相同的查询将为您提供以下结果:

<doc>
    <float name="score">1.0073696</float>
    <str name="id">1</str>
    <arr name="text">
        <str>David Bowie</str>
        <str>David Robert Jones</str>
        <str>Ziggy Stardust</str>
        <str>Thin White Duke</str>
    </arr>
</doc>
<doc>
    <float name="score">1.0073696</float>
    <str name="id">3</str>
    <arr name="text">
        <str>David Hasselhoff</str>
        <str>David Michael Hasselhoff</str>
    </arr>
</doc>
<doc>
    <float name="score">0.71231794</float>
    <str name="id">2</str>
    <arr name="text">
        <str>David Letterman</str>
    </arr>
</doc>

正如您现在看到的 termFreq胜和 fieldNorm根本不考虑。这就是为什么尽管长度不同，但出现两次 David 的两个文档都在最上面并且分数相同，而只有一个匹配项的较短文档是最后一个分数最低的文档。这是 debugQuery=on的解释:

<lst name="explain">
   <str name="1">
      1.0073696 = (MATCH) fieldWeight(text:David in 0), product of: 1.4142135 = tf(termFreq(text:David)=2) 0.71231794 = idf(docFreq=3, maxDocs=3) 1.0 = fieldNorm(field=text, doc=0)
   </str>
   <str name="3">
      1.0073696 = (MATCH) fieldWeight(text:David in 2), product of: 1.4142135 = tf(termFreq(text:David)=2) 0.71231794 = idf(docFreq=3, maxDocs=3) 1.0 = fieldNorm(field=text, doc=2)
   </str>
   <str name="2">
      0.71231794 = (MATCH) fieldWeight(text:David in 1), product of: 1.0 = tf(termFreq(text:David)=1) 0.71231794 = idf(docFreq=3, maxDocs=3) 1.0 = fieldNorm(field=text, doc=1)
   </str>
</lst>

关于solr - solr 多值字段的评分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9261524/

25

4

0

文章推荐： visual-studio-2010 - 在Visual Studio中滚动导致文本变得不可读

文章推荐： tdd - Rhino Mocks 分步教程

文章推荐： sql - 从函数调用动态SQL

solr 评分 - fieldnorm
当我搜索“iphone”时，我有以下记录和分数 - 记录1: 字段名称 - 显示名称:“iPhone” 字段名称 - 名称:“iPhone” 11.654595 = (MATCH) sum of:
elasticsearch - 根据子字段值对父文档进行排序/评分
Types Description: parent type 1)Parent Type: "product" 2)childType : "ratings" 问题描述:我有一个es查询(q
使用数据转储进行 Freebase 评分
如果您使用 Freebase 搜索按名称获取任何实体的匹配项，您将获得按 relevance score 排序的结果.例如尝试 Taj Mahal . 我正在尝试使用 Freebase 数据转储获得类
mysql - 如何根据排序顺序百分位数进行分类/评分
我试图根据多个不同的标准给不同的城市打从 1 到 5 的“分数”，最终将分数相加并决定哪个城市最好。表“international_tobacco_alcohol”包含居民用于酒精和烟草的收入百分比
多个索引的 Elasticsearch 评分
我有一年中任何一个季度的索引(“index-2015.1”，“index-2015.2”...) 我在每个索引上有大约 3000 万个文档。文档有一个文本字段('title') 我的文档排序方式是(
algorithm - 非线性比较排序/评分
我有一个数组，我想根据为数组中的每个元素分配一个分数来排序。假设可能的分数范围是 0-100。为了获得该分数，我们将使用 2 个比较数据点，一个权重为 75，一个权重为 25。我们称它们为 valu
regex - 根据歧义对正则表达式进行“评分”
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
dynamic - 如何做随机数的星星？ (评分)
做一排星星作为评级是微不足道的，但我不确定做随机数的正确 flutter 方法是什么？换句话说，假设我的评分最多为 5 颗星，我该怎么做，只有一颗或两颗星？我可以有一个 switch 语句，并返回带
.net - 评分/评级引擎 - 建议和示例？
我需要创建一个灵活的(最好是动态的)评分引擎，就像信用评分或保费计算系统一样。有创建评分引擎实践经验的人有任何建议、示例或建议模式吗？我已经知道: Rete Algorithm FICO The o
sorting - ElasticSearch 深度嵌套排序/评分
我的索引中有以下类型的文档，但由于深度嵌套方面，找不到正确排序的方法。文档示例: { "metadatas": [{ "name": "name", "timeValidity"
elasticsearch - Lucene 自定义相似度/评分
我正在寻找 Lucene (Java) 中的相似性模块，它给出基于权重的分数。我知道这很模糊，最好用一个例子来解释。 Document 1 ----------- Firstname: Frances
java - Lucene 8 评分
我对 Lucene 8 比较陌生，想了解如何将旧版 Solr 4 评分迁移到 Lucene。这就是 Solr 4 目前的做法。 /* * From the SolrRelevan
Lucene:完全禁用加权，评分，排名，
我正在使用 Lucene 来构建标记共现的大型索引(例如 [elephant,animal]、[melon,fruit]、[宝马，汽车]，...)。我使用 BooleanQuery 查询索引以获取绝对
Android 评分 baar 无法正确显示
Ratingbar 星未正确显示。我不知道我做错了什么。当我使用自定义样式时，只显示一颗星，它的长度等于 5 星。风格是: @drawable/manual_ratingbar
java - Jsoup imdb 评分
我编写了一个程序，它读取 imdb 上排名前 250 的电影的名称和评分，并返回评分的平均值。我有以下程序 import java.io.IOException; import org.jsoup.*
Elasticsearch:使用 Ngrams 评分
我有一个直截了当的问题，我将 ngram 用于部分匹配。实现效果很好，但得分结果并不像我希望的那样有效。我希望我的分数结果看起来像这样: 柯:.1 Kev:.2 凯维:.3 凯文:.4 相反，我得到以
MySQL 评分/投票系统(根据票数按最佳评分准确排序)
假设我有一个像这样的 MySQL 表: 软件表: id int name text votes int rating int 其中投票是某人为该项目投票的次数，评分是这些投票的平均值。示例数据: i
java - Lucene EdgeNGramTokenFilter 评分
我在索引期间使用过滤器 EdgeNGramTokenFilter。当我寻找一个词时。当 Lucene 找到完整单词或另一个单词的一部分时，它的评分不会产生差异。例如，如果我正在查找单词 PUB。我
java - ElasticSearch 排名 - 评分
我们正在使用 java 并使用 elasticsearch java api 开发一个应用程序。我们对元数据建立了索引，并希望在索引时或搜索时使用排名/评分。而且，我不知道是否可以对用户单击结果时选
comparison - lucene vs solr 评分
有人可以解释(或引用引用资料)用更简单的词来比较 SOLR 和 LUCENE 使用的评分机制。它们有什么区别吗？我不太擅长 solr/lucene，但我的发现表明它们似乎不同。 P.S:我只是尝试

首页

博学

6Ren·AI

商城

solr - solr 多值字段的评分