solr - 阻止 SOLR 多次索引同一个词(或如何提升一个字段)-6ren

solr - 阻止 SOLR 多次索引同一个词(或如何提升一个字段)

转载作者：行者123 更新时间：2023-12-04 04:39:14

所以我正在运行一个俚语词典类型的网站，并且以前一直使用 mysql LIKE 进行站点搜索。它工作正常。无论如何，现在我正在更新网站并考虑将 django-haystack 与 SOLR 一起使用(似乎是最好的搜索选项之一？)

我让它运行了，但搜索结果并不好。例如，搜索“LOL”这个词会给出“Flood”作为第一个结果，因为它也有一个用“LOL LOL LOL LOL LOL LOL”泛滥的例子，而不是首先显示 LOL 这个词。

那么是否可以只标记 Flood 示例中的一个 LOL(我是 SOLR 的新手，所以我的想法可能是错误的)。或者我可以只提高单词标题的值(因此搜索词与标题匹配的词排在第一位，搜索词与示例匹配的词排在第二位)？我已经尝试过 django-haystack 场提升，但它似乎并没有做太多。

提前致谢!

编辑:这是 SOLR 方案(有点大，主要由 Django-Haystack 自动生成):

<?xml version="1.0" ?>
<schema name="default" version="1.1">
  <types>
    <fieldtype name="string"  class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/>

    <!-- Numeric field types that manipulate the value into
         a string value that isn't human-readable in its internal form,
         but with a lexicographic ordering the same as the numeric ordering,
         so that range queries work correctly. -->
    <fieldType name="sint" class="solr.SortableIntField" sortMissingLast="true" omitNorms="true"/>
    <fieldType name="slong" class="solr.SortableLongField" sortMissingLast="true" omitNorms="true"/>
    <fieldType name="sfloat" class="solr.SortableFloatField" sortMissingLast="true" omitNorms="true"/>
    <fieldType name="sdouble" class="solr.SortableDoubleField" sortMissingLast="true" omitNorms="true"/>

    <fieldType name="date" class="solr.DateField" sortMissingLast="true" omitNorms="true"/>

    <fieldType name="text" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        <!-- find finnish ones <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> -->
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <filter class="solr.SnowballPorterFilterFactory" language="Finnish" />
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front" />
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SnowballPorterFilterFactory" language="Finnish" />
        <!-- <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> -->
        <!-- find finnish ones <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> -->
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldType>

    <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
      <analyzer>
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
      </analyzer>
    </fieldType>

    <fieldType name="ngram" class="solr.TextField" >
      <analyzer type="index">
        <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="15" />
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.KeywordTokenizerFactory"/>
        <filter class="solr.LowerCaseFilterFactory"/>
      </analyzer>
    </fieldType>

    <fieldType name="edge_ngram" class="solr.TextField" positionIncrementGap="1">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory" />
        <filter class="solr.LowerCaseFilterFactory" />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front" />
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory" />
        <filter class="solr.LowerCaseFilterFactory" />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
      </analyzer>
    </fieldType>
  </types>

  <fields>   
    <!-- general -->
    <field name="id" type="string" indexed="true" stored="true" multiValued="false" required="true"/>
    <field name="django_ct" type="string" indexed="true" stored="true" multiValued="false" />
    <field name="django_id" type="string" indexed="true" stored="true" multiValued="false" />

    <dynamicField name="*_i"  type="sint"    indexed="true"  stored="true"/>
    <dynamicField name="*_s"  type="string"  indexed="true"  stored="true"/>
    <dynamicField name="*_l"  type="slong"   indexed="true"  stored="true"/>
    <dynamicField name="*_t"  type="text"    indexed="true"  stored="true"/>
    <dynamicField name="*_b"  type="boolean" indexed="true"  stored="true"/>
    <dynamicField name="*_f"  type="sfloat"  indexed="true"  stored="true"/>
    <dynamicField name="*_d"  type="sdouble" indexed="true"  stored="true"/>
    <dynamicField name="*_dt" type="date"    indexed="true"  stored="true"/>


    <field name="rendered" type="string" indexed="false" stored="true" multiValued="false" />

    <field name="word" type="text" indexed="true" stored="true" multiValued="false" />

    <field name="author" type="text" indexed="true" stored="true" multiValued="false" />

    <field name="text" type="text" indexed="true" stored="true" multiValued="false" />

    <field name="explanation" type="text" indexed="true" stored="true" multiValued="false" />

    <field name="example" type="text" indexed="true" stored="true" multiValued="false" />

  </fields>

  <!-- field to use to determine and enforce document uniqueness. -->
  <uniqueKey>id</uniqueKey>

  <!-- field for the QueryParser to use when an explicit fieldname is absent -->
  <defaultSearchField>text</defaultSearchField>

  <!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->
  <solrQueryParser defaultOperator="AND" />
</schema>

最佳答案

你最后的评论为我清除了它。你需要看的是Relevance in general在您的情况下，特别是 Field Boosting。

为了在字段上使用查询时间提升，您需要使用 Solr 的 DisMax 处理程序或其扩展名 eDisMax 处理程序。你可以通过它的' qf parameter 告诉那个处理程序要搜索哪些字段以及每个字段的提升方式。

例如

qf="word^10.0 title^5.0 exmaple^0.5"

如果文档与单词匹配，则将该分数增加 10

如果文档与标题匹配，则将该分数增加 5

如果文档与示例中的命中匹配，则将该分数增加 0.5，这相当于递减

您可以在发送给 Solr 的每个搜索查询中添加该 qf 参数，也可以在 solrconfig.xml 中配置它。

<requestHandler name="standard" 
    class="solr.StandardRequestHandler" default="true">
    <!-- default values for query parameters -->
    <lst name="defaults">
        <str name="defType">edismax</str>
        <str name="q.alt">*:*</str>
        <str name="qf">word^10.0 title^5.0 exmaple^0.5</str>
        <str name="fl">*,score</str>
        <str name="mm">100%</str>
    </lst>
</requestHandler>

<queryParser name="edismax" 
    class="org.apache.solr.search.ExtendedDismaxQParserPlugin" />

一些进一步的阅读

http://www.solrtutorial.com/solr-search-relevancy.html

http://wiki.apache.org/solr/SolrRelevancyCookbook

关于solr - 阻止 SOLR 多次索引同一个词(或如何提升一个字段)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19199534/

文章推荐： font-face - 按钮未正确显示(Videojs 字体不适用于子域)

文章推荐： matlab - 在 MATLAB 中绘制元胞数组

文章推荐： asp.net - 如何使用 asp.net 中继器呈现两列布局

jsp - 如何从JSP输出HTML <%! ... %> 阻止？
我刚开始学习JSP技术，遇到了瓶颈。如何从 JSP 声明 block ？这不起作用: ... 服务器说没有“out”。 U: 我确实知道如何使用返回字符串的方法重写代码，但是有没有办法在？
lucene - Elasticsearch 阻止
在一个字段中，我想设置一个具有自定义过滤器的自定义分析器-着眼于词干-因此，“闪存卡”和“闪存卡”的词根相同，因此返回的结果相同当我运行以下查询时，我的命中率很高，但是“闪存卡”和“闪存卡”各自返回
c# - 阻止 WM_QUIT
快速提问。我有一个通过 PInvoke 使用 native DLL 的应用程序，这个 DLL 可能会调用 PostQuitMessage()。如何避免？ (因为我的应用程序不应该关闭) 我试过 A
javascript - 阻止 $(this) 元素上的事件
一些给定的 HTML 文章，例如: Content 与一些基本的 Jquery 结合使用，例如: $(".some_
Javascript 阻止 css？
我正在构建一个灯箱相册。当第一个图像加载时，CSS 转换起作用。当加载后的每个图像都没有。任何想法为什么？加载第一张之后的照片，但没有过渡。 Image.prototype.load = functi
android - 阻止/禁用最近使用的应用程序按钮
这个问题在这里已经有了答案: Disable recent tasks button on Android 5.0 (2 个答案) 关闭 2 年前。我知道这个问题之前在这里被问过 Android
iphone - 阻止 UIAlertViewDelegate
我是 Objective-C 的新手，我只是想弄清楚我是否可以使用 block 或选择器作为 UIAlertView 的 UIAlertViewDelegate 参数 - 哪个更合适？我已经尝试了以
c - 为什么不接受()阻止？
我是 Linux (UNIX) 套接字下套接字编程的新手。我在 Internet 上找到了以下代码，用于为每个连接生成一个线程的 tcp 服务器。但是它不起作用。accept() 函数立即返回，不等待
阻止 recv() 返回少于请求字节的情况
recv()库函数手册页提到: It returns the number of bytes received. It normally returns any data available, up
typescript - 阻止 WebStorm 建议索引导入
我有一个用于其他项目的共享 ts 库。在这个库中有被同一个库的其他资源使用的资源。该库的结构分为 components/*、interfaces/*、services/* 等目录。在每个目录的根目录中
Flutter 阻止 ListView 以新行显示
我想在同一行中一个接一个地显示我的 ListView ，但 ListView 显示每个新行中的每个项目。我怎样才能防止换行显示。以便它显示为段落 ListView.builder( shr
reactjs - 阻止 `useSelector` 重新渲染组件？
我有一个包含数千行的表格。 import React from "react" import { useSelector } from "react-redux"; import { useEffec
haskell - 阻止 GHC 警告我一个特定的缺失模式
假设我通常希望收到关于代码中不完整模式的警告，但有时我知道某个函数的模式不完整，我知道这很好。是still true GHC 的警告粒度是每个模块的，并且没有办法更改有关特定功能或定义的警告？最佳
javascript - 我如何知道浏览器通知是否被 Windows 阻止
我的网络应用程序发送浏览器通知，我知道如何检查通知的浏览器权限，以及如果未授予权限，如何请求权限。但是，即使用户授予我的站点发送通知的权限，她可能仍然无法收到通知，因为它们 might be dis
xcode - 阻止 Xcode 将文本转换为超链接？
我有 Xcode 3.2.1，并且喜欢使用它，但是当我编辑文本中带有超链接的文件时(例如，带有引用的注释:# see http://example.com)Xcode 将文本变成可点击的超链接。尝试编
excel - 阻止 Excel 将日期转换为数字
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许在 Stack Overflow 上提出有关通用计算硬件和软件的问题。您可以编辑问题，使其成为
php - 阻止 Controller 执行
我有一个在 MY_Controller 中运行的 acl。如果权限被拒绝，那么此刻，我只是执行 redirect('denied') - 这是一个非常基本的 Controller ，它加载一个非常基本
firefox - 阻止 Firefox 缓存本地主机？
我一直很好奇尝试从 Chrome 切换到 Firefox Quantum，但是对于 Web 开发遇到了一个我无法轻松解决的主要障碍——它正在缓存我的本地主机文件，因此当我尝试在本地主机加载各种 emb
xcode - 阻止 Xcode 记住我以前打开的项目
这真的让我很兴奋!在任何时候，我都会参与多个项目。当我退出Xcode时，下次打开Xcode时，我前一天的所有项目都会自动一一打开。经常我最终编辑错误的文件，AHHHHHHHHHHH!我可以阻止这种行
wiki - MediaWiki大量用户删除/合并/阻止
我的Wiki上有500个左右的Spambot和大约5个实际注册用户。我已经使用nuke删除了他们的页面，但是他们一直在重新发布。我已经使用reCaptcha控制了spambot的注册。现在，我只需要一

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

solr - 阻止 SOLR 多次索引同一个词(或如何提升一个字段)