Solr-不区分大小写的搜索不起作用-6ren

Solr-不区分大小写的搜索不起作用

转载作者：行者123 更新时间：2023-12-04 18:11:55

27

4

我想在solr中对字段myfield应用不区分大小写的搜索。

我为此搜索了一下，发现我需要将LowerCaseFilterFactory应用于字段类型，并且字段应为solr.TextFeild。

我在schema.xml中应用了它并重新索引了数据，然后我的搜索似乎区分大小写。

以下是我执行的搜索。

http://localhost:8080/solr/select?q=myfield:"cloud university"&hl=on&hl.snippets=99&hl.fl=myfield

以下是字段类型的定义

 <fieldType name="text_en_splitting" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <!-- in this example, we will only use synonyms at query time
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/>
        -->
        <!-- Case insensitive stop word removal.
          add enablePositionIncrements=true in both the index and query
          analyzers to leave a 'gap' for more accurate phrase queries.
        -->
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords_en.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords_en.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
        <filter class="solr.PorterStemFilterFactory"/>
      </analyzer>
    </fieldType>

以下是我的字段定义

 <field name="myfield" type="text_en_splitting" indexed="true" stored="true" />

不确定，这有什么问题。
请帮助我解决此问题。

谢谢

编辑

调试查询

<lst name="debug">
    <str name="rawquerystring">
        "cloud university" AND guid:268406b6-db65-49da-848a-c59248f170db
    </str>
    <str name="querystring">
        "cloud university" AND guid:268406b6-db65-49da-848a-c59248f170db
    </str>
    <str name="parsedquery">
        +PhraseQuery(CC:"cloud univers") +guid:268406b6-db65-49da-848a-c59248f170db
    </str>
    <str name="parsedquery_toString">
        +CC:"cloud univers" +guid:268406b6-db65-49da-848a-c59248f170db
    </str>
    <lst name="explain">
        <str name="KSYS_20120805_1100">
            12.572915 = (MATCH) sum of: 0.03595598 = weight(CC:"cloud univers" in 1560524), product of: 0.51819557 = queryWeight(CC:"cloud univers"), product of: 8.881522 = idf(CC: cloud=4798 univers=625207) 0.05834536 = queryNorm 0.06938689 = fieldWeight(CC:"cloud univers" in 1560524), product of: 1.0 = tf(phraseFreq=1.0) 8.881522 = idf(CC: cloud=4798 univers=625207) 0.0078125 = fieldNorm(field=CC, doc=1560524) 12.536959 = (MATCH) weight(guid:268406b6-db65-49da-848a-c59248f170db in 1560524), product of: 0.85526216 = queryWeight(guid:268406b6-db65-49da-848a-c59248f170db), product of: 14.658615 = idf(docFreq=1, maxDocs=1709587) 0.05834536 = queryNorm 14.658615 = (MATCH) fieldWeight(guid:268406b6-db65-49da-848a-c59248f170db in 1560524), product of: 1.0 = tf(termFreq(guid:268406b6-db65-49da-848a-c59248f170db)=1) 14.658615 = idf(docFreq=1, maxDocs=1709587) 1.0 = fieldNorm(field=guid, doc=1560524)
        </str>
    </lst>
    <str name="QParser">LuceneQParser</str>
    <lst name="timing">
        <double name="time">60.0</double>
        <lst name="prepare">
            <double name="time">1.0</double>
            <lst name="org.apache.solr.handler.component.QueryComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.FacetComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.MoreLikeThisComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.HighlightComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.StatsComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.DebugComponent">
                <double name="time">0.0</double>
            </lst>
        </lst>
        <lst name="process">
            <double name="time">59.0</double>
            <lst name="org.apache.solr.handler.component.QueryComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.FacetComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.MoreLikeThisComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.HighlightComponent">
                <double name="time">57.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.StatsComponent">
                <double name="time">0.0</double>
            </lst>
            <lst name="org.apache.solr.handler.component.DebugComponent">
                <double name="time">2.0</double>
            </lst>
        </lst>
    </lst>
</lst>

最佳答案

您应该将solr.LowerCaseFilterFactory放在单词定界符之前，因为大写字母位于小写的中间，反之亦然会触发单词定界符

关于Solr-不区分大小写的搜索不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12071164/

27

4

0

文章推荐： SQL确定当前周是否为包含N个月份的周

文章推荐： msbuild - Teamcity MSBuild发布输出目录

文章推荐： MPI 接收/收集动态矢量长度

基于浏览器的 CSS 区分
不确定是否可能，但只是想知道 CSS 中是否有一种方法来区分两种浏览器，即 IE6 和 IE8，因为我有一个我需要应用的样式，但 IE6 和 IE8 的值需要不同，即 ul.sf-menu li li
c++ - 区分 typedef
我正在为 C 库编写 C++ 抽象。 C 库有几个用于标识远程资源的 ID 的类型定义: typedef int color_id; typedef int smell_id; typedef int
vba - 区分 Word 文档中的目录
有谁知道当以编程方式遍历 Word 文档时，您可以判断一个段落是否构成目录的一部分(或者实际上，构成字段一部分的任何其他内容)。我提出这个问题的原因是我有一个 VB 程序，它应该从文档中提取前几段实
r - 区分 R 中因子变量的水平
假设我的数据集包含三列:id(标识)、case(字符)和 value(数字)。这是我的数据集: tdata <- data.frame(id=c(1,1,1,1,2,2,2,2,3,3,3,3,4,4
gcc - 区分 gcc 诊断
我在解释 gcc (4.8.2) 警告和错误时遇到问题。更准确地说，很难分辨一个问题在哪里结束，另一个问题从哪里开始。我只能通过控制台访问构建机器，因此不能选择使用 IDE。我真的需要能够快速区分个
typescript - 区分 typescript 类型中的装饰类方法
我想创建一个泛型类型，它只从类定义中选择修饰的方法。 function test(ctor: any, methodName: any) {} class A { @test publ
r - 名称和表达式之间的规范 NSE 区分
是否有规范的 base-R 方法来确定函数参数是否是对象名称而不是文字/表达式？虽然通常不鼓励使用 NSE，但偶尔会有人有一个好主意并想使用它。 data.frame 是我认为“方便”的最简单用例:
iphone - 区分 didSelectRowAtIndexPath 和accessoryButtonTappedForRowWithIndexPath
我已经实现了 didSelectRowAtIndexPath 和accessoryButtonTappedForRowWithIndexPath 似乎永远不会触发。但是，didSelectRowAtI
python - 区分 pandas 数据框中的小数列和字符串列
我需要确定数据框中的哪些列是小数，哪些是字符串。使用 df.dtypes 为两种列类型提供“对象”: import pandas as pd import decimal data = {'dec1
vim - 区分 Vim 中的隐藏缓冲区和事件缓冲区
有没有办法在 Vim 中区分隐藏缓冲区和事件缓冲区？我需要确定窗口中的缓冲区是否处于事件状态，以便可以切换它。尝试了 bufloaded、bufexists 和 buflisted，但它们对于事件
javascript - 区分 JavaScript 事件
在 JavaScript 中区分事件的最佳方法是什么。实际上有两点我感兴趣。第一点是事件中是否有类似 id 的东西(这对于调试目的非常有用)。另一点是有更好的方法来区分 mousedown 和 mo
javascript - 区分 AJAX 上的多种表单
我有一个 php 页面，里面有多个表单。 "> "> " value=""> " value=""> 这些表单是通过循环遍历 MySQL 上的所有数据而生成的。每个表单和输入都
ponylang - 区分 Pony 中不同类型的错误？
Pony 有一个未参数化的异常值。不幸的是，我经常有一些代码想要抛出不同类型的异常，并且我需要知道它们是什么，以便正确处理它们——例如，简单地说，当停止程序时，向用户提供以下信息很重要正确的错误消息
.net - 区分 .NET 异常类型
出于对所有神圣事物的热爱，您如何区分预定义的 .NET 异常类中的不同“异常风格”？例如，一段代码可能会抛出 XmlException在以下条件下: 文档的根元素为NULL 文档中的字符无效文档太
java - 区分 JComboBox 中的选定项目
正如您在下面看到的，我创建了一个 JComboBox，其中“选项”数组中的元素作为列表中的选项。当选择列表中的特定项目时，我想显示 JLabels“一个”或“两个”。例如。选择选项一显示“一”，选择
java - 区分 sqlite 表中的重复行
我有一个表，其中包含四列用户名、产品名称、产品价格和一个名为 item_paid 的 boolean 列。相同的产品名称可以作为重复条目插入到表中。但是有没有办法区分一行和重复行？或者我应该创建一个名
c# - 区分 getter-only 属性和表达式主体属性？
是否可以使用反射来区分仅 getter 属性和表达式主体属性？ class MyClass { DateTime GetterOnly { get; } DateTime Expres
java - 区分 MIDI 钢琴输入的按键按下和释放
我即将为一个学校项目制作一个小程序，该程序应该能够识别通过 MIDI 钢琴输入演奏的和弦(这只是其中的一部分)。目前为止，每次按下和每次释放 MIDI 键盘上的某个键，我都会得到一个 ShortMe
scala - 区分 AVRO 联合类型
我正在使用“自动”反序列化器从 Kafka 消费 Avro 序列化消息，例如: props.put( ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFI
codeigniter 区分 JOINed 表中的字段名称
我需要从两个表中检索数据。第一个是事件列表，第二个是 field 列表。我在两个表中都有一个同名的字段:events.venue(这是一个 ID)，venues.venue 是地点的名称，比如“bl

首页

博学

6Ren·AI

商城

Solr-不区分大小写的搜索不起作用