gpt4 book ai didi

lucene - 使用 SOLR 搜索短词

转载 作者:行者123 更新时间:2023-12-01 05:55:16 25 4
gpt4 key购买 nike

我使用 SOLR 和 NGramTokenizerFactory 来帮助创建单词子字符串的搜索标记

NGramTokenizer 配置的最小字长为 3

这意味着我可以搜索例如“unb”,然后匹配“令人难以置信”一词。

但是,我对“I”和“in”等简短单词有疑问。这些没有由 SOLR 索引(我怀疑这是因为 NGramTokenizer),因此我无法搜索它们。

我不想将最小字长减少到 1 或 2,因为这会创建一个巨大的搜索索引。但我希望 SOLR 包含长度已经低于此最小值的整个单词。

我怎样才能做到这一点?

/卡斯滕

最佳答案

首先,尝试了解为什么 solr 使用“分析工具”无法将您的单词编入索引

http://localhost:8080/solr/admin/analysis.jsp

只需输入您要搜索的字段和文本,即可查看哪个分析器正在过滤您的短期术语。我建议您这样做,因为您说您只有一个“嫌疑人”,并且您必须确定哪个分析器过滤您的数据。

那么为什么不直接将术语复制到另一个字段中而不使用该分析器呢?

通过这种方式,您的术语将被索引两次,并且将同时显示为精确单词和 n 元语法。然后你必须处理两个不同字段的分数。

我希望这对您有所帮助。

聚合和copyfield属性的一些链接:

Indexing data in multiple fields

Using copy field tag

关于lucene - 使用 SOLR 搜索短词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3224620/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com