gpt4 book ai didi

solr - SOLR 中的索引加字符

转载 作者:行者123 更新时间:2023-12-02 22:38:56 24 4
gpt4 key购买 nike

我正在使用 UAX29URLEmailTokenizerFactory 分词器为 SOLR 中的一些 URI 编制索引。问题是我的一些 URI 包含加号字符,SOLR 将其解释为空格并拆分 URI。这个问题可以通过巧妙地转义“+”字符来解决吗?我在分析器中尝试了“+”,但得到了相同的结果。这是我对字段的确切配置:

<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.UAX29URLEmailTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.UAX29URLEmailTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

最佳答案

您可以在分析器之前使用 CharacterFilter(例如 PatternReplaceCharFilterFactory)。这link有一些很好的信息。我能想到的一种解决方案是用其他字符替换 + 字符 - 然后当您提供此链接时,请记住将其替换回去。

另外要研究的是,将其替换为加号(%2B)的 URL 编码值,并查看分析器是否将其视为空格。

关于solr - SOLR 中的索引加字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11033100/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com