gpt4 book ai didi

lucene.net - 最好使用 lucene KeywordAnalyzer 为自动建议文本框索引文本吗?

转载 作者:行者123 更新时间:2023-12-03 11:16:59 25 4
gpt4 key购买 nike

我在搜索表单中有一个文本框,我想将组合框/自动完成小部件附加到该文本框。当用户输入时,我想自动建议相关的地名。所以如果用户输入“Ca”,建议柬埔寨、喀麦隆、加拿大、佛得角等,排名高于北卡罗来纳州和南卡罗来纳州。如果用户键入“Sea”,则返回红海、黑海等项目,但可能不会返回 Chelsea(如果有的话,这应该得分较低)。我们的地名数据库非常精细和复杂,包含大量数据和大量地名的替代名称/翻译。数据存储在 SQL Server 中,我们使用 Entity Framework 作为数据访问层。不用说,使用 LINQ to Entities 有效地查询我们的 Places 实体聚合是缓慢且低效的。

我看的是 Lucene.Net,而不是编写自定义 SQL 和索引来优化数据库搜索。今天是我测试它的第一天。我读过的大多数 Lucene 帮助都使用 StandardAnalyzer 进行索引。我在使用它进行几次测试时遇到了一些麻烦。例如,请考虑以下内容:

var searchTerms = new[] { "Ca", "China", "Sea", };
searchTerms = searchTerms.Concat(searchTerms.Select(x => x.ToLower())).ToArray();
var reader = IndexReader.Open(_directory, true);
foreach (var searchTerm in searchTerms)
{
var searcher = new IndexSearcher(reader);
var query1 = new WildcardQuery(new Term("OfficialName", string.Format("*{0}*", searchTerm)));
var query2 = new TermQuery(new Term("OfficialName", searchTerm));
var query3 = new QueryParser(Version.LUCENE_30, "OfficialName", new SimpleAnalyzer()).Parse(searchTerm);
var query4 = new PrefixQuery(new Term("OfficalName", searchTerm));
var query5 = new BooleanQuery();
query5.Add(query1, Occur.SHOULD);
query5.Add(query2, Occur.SHOULD);
query5.Add(query3, Occur.SHOULD);
query5.Add(query4, Occur.SHOULD);
var queryToRun = query5;
var results = searcher.Search(queryToRun, int.MaxValue);
var hits = results.ScoreDocs;

上面的代码只是尝试了正常和小写版本的术语。有趣的是,“Ca”查询不返回任何结果,但“ca”返回大量结果——非洲、北美等。我想我在某处读到标准分析器根据大小写区分术语,所以这可能就是为什么…… ?其他搜索词会返回人们可能期望的结果。

当使用关键字分析器对相同的数据进行索引时,结果会大不相同。一件奇怪的事情是“china”只返回 1 个结果,“Uchinada-machi”。我原以为它还会返回“中国”和“东海”。此外,“sea”会返回诸如“肯辛顿和切尔西皇家自治市镇”和“斯旺西市和县”之类的结果,但不会返回任何其他预期结果。

那我该怎么办呢?我应该为不同的分析器设置不同的文本索引吗?我是否需要查询带有小写文本的文档字段?我阅读了有关使用 NGram 分词器的信息,但它们似乎不再位于 Lucene.Net.Analysis 命名空间中。

最佳答案

我认为这个问题的答案是“这取决于,但可能不是”。根据Lucene in Action , KeywordAnalyzer 将整个 string 视为单个分析标记。所以它不会把像“东海”这样的东西分解成“东方”、“中国”和“海”来分别搜索。知道了这一点,我得到了我尝试的查询类型的上述结果是有道理的。

我对我对 Lucene 中区分大小写的理解仍然不是完全自信,所以如果我错了请纠正我,但看起来你必须将搜索输入大小写与用于索引的字段和分析器相匹配。我真正掌握这一点的唯一方法是测试分析器、文档字段(普通和小写)和字段设置(ANALYZEDNOT_ANALYZED)的不同组合。上面引用的链接将小写文本的过程称为规范化。

我发现当使用 StandardAnalyzer 分析搜索的字段时,使用大写和小写输入文本的组合(如“Ch”)进行搜索不会返回任何结果。既然我已经阅读了上面的链接,这就更有意义了。看起来 StandardAnalyzer 在创建搜索标记时将规范化为小写。因此,如果您执行类似 new QueryParser(Version.LUCENE_30, field, analyzer).Parse("Ch") 的操作,大多数分析器实际上会将其转换为小写,因为索引中的标记是小写。

对于 OP,似乎一个好的解决方案是规范化(小写)用户输入的查询,这些查询是针对分析器规范化的字段运行的。如果需要,您可以将结果与针对 NOT_ANALYZED 字段(或使用非规范化分析器索引的字段)运行的非规范化用户输入合并(可能为后者提供更高的提升因子)。

关于lucene.net - 最好使用 lucene KeywordAnalyzer 为自动建议文本框索引文本吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20710503/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com