gpt4 book ai didi

solr - 在 SOLR 中索引和查询的最佳标记分析器

转载 作者:行者123 更新时间:2023-12-04 04:55:32 25 4
gpt4 key购买 nike

我在数据库中有一个 C++ 代码存储库,并希望在 SOLR 中对其进行索引。我应该使用什么最好的 token 分析器来索引和以后在 SOLR 中查询?

我尝试了几种不同的标记分析器,并考虑设置模式以按空格、句点、其他特殊字符等分隔。

有没有更好的方法来索引这样的代码?

最佳答案

我将从一个简单的配置开始,并根据任何特定需求进一步添加:-

<fieldType name="text" class="solr.TextField">
<analyzer>
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.StopFilterFactory ... "/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>

WhitespaceTokenizerFactory - Whitespace Tokenizer 以在空白处打破 token
StopFilterFactory - 停止过滤以删除源代码中的常见术语,这些术语将出现在所有文件中。
LowerCaseFilterFactory - 小写使搜索大小写独立。

关于solr - 在 SOLR 中索引和查询的最佳标记分析器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16804741/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com