gpt4 book ai didi

ruby-on-rails-3 - 不要使用 solr.StandardTokenizerFactory 在下划线处拆分

转载 作者:行者123 更新时间:2023-12-02 02:04:47 25 4
gpt4 key购买 nike

我正在使用 solr,我在文本字段中使用 StandardTokenizerFactory,但我不想在下划线处拆分。我是否必须使用另一个 toknizer,如 PatternTokenizerFactory 或者我可以使用 StandardTokenizerFactory 来做到这一点?因为我需要 StandardTokenizerFactory 的相同功能,但没有下划线分割。

最佳答案

我不认为你可以在 StandardTokenizerFactory 中做到这一点。一种解决方案是首先将下划线替换为 StandardTokenizerFactory 不会处理的内容以及您的文档不会包含的内容。比如你可以先用PatternReplaceCharFilterFactory到处把_换成QQ并通过 StandardTokenizerFactory,然后使用 PatternReplaceFilterFactoryQQ 替换为 _ .这是执行此操作的 fieldType 定义:

<fieldType name="text_std_prot" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<charFilter class="solr.PatternReplaceCharFilterFactory"
pattern="_"
replacement="QQ"/>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.PatternReplaceFilterFactory"
pattern="QQ"
replacement="_"/>
...
</analyzer>
</fieldType>

这是发生的情况的屏幕截图:

Analysis Tool Screenshot

关于ruby-on-rails-3 - 不要使用 solr.StandardTokenizerFactory 在下划线处拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15713314/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com