gpt4 book ai didi

solr - ShingleFilterFactory影响Solr中突出显示的部分的大小

转载 作者:行者123 更新时间:2023-12-04 04:25:19 26 4
gpt4 key购买 nike

ShingleFilterFactory添加到solr(索引时间)中的类型时,确实会导致突出显示查询时行为发生变化。

示例文本:“在船上,盒子里有一条龙”

如果没有ShingleFilterFactory,则两个“in”标记将分别突出显示。

<em>in</em> a ship a dragon was <em>in</em> a box

有了它,整个段作为单个突出显示返回。
<em>in a ship a dragon was in</em>

为什么使用“ShingleFilterFactory”会影响突出显示?

编辑:

根据要求添加架构信息:

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<charFilter class="solr.HTMLStripCharFilterFactory"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true"/>
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.ShingleFilterFactory" maxShingleSize="2" outputUnigrams="true"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

如上所述,使用包含带状滤波器的 text_general会导致异常大的高亮字段。

最佳答案

也许您可以使用以下荧光笔:

https://issues.apache.org/jira/browse/LUCENE-1522

您所指向的问题是已知的,并且有一些修补程序可用:

https://issues.apache.org/jira/browse/LUCENE-1489

编辑:第二个链接是Bereng发送的相同。

关于solr - ShingleFilterFactory影响Solr中突出显示的部分的大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30054930/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com