gpt4 book ai didi

lucene - 使用 SOLR 搜索短词

转载 作者:行者123 更新时间:2023-12-04 15:04:48 32 4
gpt4 key购买 nike

我正在使用 SOLR 和 NGramTokenizerFactory 来帮助为单词子串创建搜索标记

NGramTokenizer 配置最小字长为 3

这意味着我可以搜索例如"unb"然后匹配单词 "unbelievable"。

但是,我对像“I”和“in”这样的短词有疑问。这些不是由 SOLR 索引的(我怀疑是因为 NGramTokenizer),因此我无法搜索它们。

我不想将最小字长减少到 1 或 2,因为这会创建一个巨大的搜索索引。但我希望 SOLR 包含长度已经低于此最小值的整个单词。

我怎样才能做到这一点?

/卡斯滕

最佳答案

首先,尝试使用“分析工具”了解为什么您的单词没有被 solr 索引

http://localhost:8080/solr/admin/analysis.jsp

只需输入您正在搜索的字段和文本,然后查看哪个分析器正在过滤您的短期内容。我建议你这样做,因为你说你只有一个“嫌疑人”,你必须确定哪个分析器过滤了你的数据。

那么为什么不直接在没有该分析器的情况下将术语复制到另一个领域呢?

通过这种方式,您的术语将被索引两次,并且将同时显示为精确词和 n-gram。
然后你要处理两个不同领域的分数。

我希望这在某种程度上帮助了你。

聚合和复制字段属性的一些链接:

Indexing data in multiple fields

Using copy field tag

关于lucene - 使用 SOLR 搜索短词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3021226/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com