gpt4 book ai didi

Solr to Tokenize 空格、逗号和句号

转载 作者:行者123 更新时间:2023-12-02 08:35:48 24 4
gpt4 key购买 nike

我试图强制 Solr 在空白、逗号、:; 上标记文档。类似于 SQL Server 全文搜索的功能。如果我使用 text_general 字段然后它标记其他字符以及 ('/','\','-') ,我尝试使用

<tokenizer class="solr.PatternTokenizerFactory" pattern="\s*,:;\s*"/>

但它不会标记它。这是我的 FieldType 的样子:

<fieldType name="text_sqlserver" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.PatternTokenizerFactory" pattern="\s*,:;\s*"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.PatternTokenizerFactory" pattern="\s*,:;\s*"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

有什么我想念的吗?我也必须搜索不区分大小写的比较。

最佳答案

你的模式实际上是错误的,尝试这样的事情:pattern="[\s,;:]"

您可能想尝试的替代方案:

关于Solr to Tokenize 空格、逗号和句号,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21760562/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com