gpt4 book ai didi

solr - 如何正确配置 solr 词干分析

转载 作者:行者123 更新时间:2023-12-04 21:56:19 24 4
gpt4 key购买 nike

我在 Solr 中配置了一个字段,如下所示。当我搜索“Conditioner”这个词时,我希望找到也包含“Conditioning”的单词。但根据 Solr 分析,porterstemfilter 在索引时将“Conditioning”一词削减为“Condit”。因此,在搜索时,当我查询“Conditioner”时,它被词干为“Condition”,因此与“Conditioning”不匹配。

如何配置词干提取,以便 Conditioner 和 Conditioning 都应词干到条件?

<fieldType name="text_general" class="solr.TextField"
positionIncrementGap="100" autoGeneratePhraseQueries="true">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1" generateNumberParts="1"
catenateWords="1" catenateNumbers="1" catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<filter class="solr.PorterStemFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt"
ignoreCase="true" expand="true"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true" words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1" generateNumberParts="1"
catenateWords="0" catenateNumbers="0" catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.KeywordMarkerFilterFactory" protected="protwords.txt"/>
<filter class="solr.PorterStemFilterFactory"/>
</analyzer>
</fieldType>

最佳答案

我还建议尝试不同的 Stemmer。 Solr中包含了4个

  1. solr.PorterStemFilterFactory
  2. solr.SnowballPorterFilterFactory
  3. solr.KStemFilterFactory
  4. solr.HunspellStemFilterFactory(您需要从外部来源获取一本字典,例如开放办公室)

其中每一个都会为您的问题产生不同的结果,请参见下文。鉴于结果并且您不需要外部资源,我也会选择 KStem。如果你不害怕包含字典,我会选择 hunspell。

  1. 搬运工
    • 护发素 -> 状况
    • 调节 -> 条件
  2. 雪球搬运工
    • 护发素 -> 状况
    • 调节 -> 条件
  3. kstem
    • 护发素 -> 状况
    • 条件 -> 条件
  4. hunspell 与 en_GB
    • 护发素 -> 状况
    • 调节 -> 调节;条件

关于solr - 如何正确配置 solr 词干分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27516556/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com