gpt4 book ai didi

c# - 简单的 PhraseQuery 找不到任何结果

转载 作者:行者123 更新时间:2023-12-02 21:40:22 25 4
gpt4 key购买 nike

我正在尝试对我的数据中的 3 个字段实现 Lucene 搜索。它应该按如下方式工作:当字段文本是“我的大白猫”时,当我搜索“大猫”时,它会匹配。

根据教程,我添加了 AddToLuceneIndex 方法:

private static void AddToLuceneIndex(MyObject myObject, IndexWriter writer)
{

var searchQuery = new TermQuery(new Term("Id", myObject.Id));
writer.DeleteDocuments(searchQuery);
var doc = new Document();

doc.Add(new Field("Field1", myObject.Field1, Field.Store.YES, Field.Index.ANALYZED));
doc.Add(new Field("Field2", myObject.Field2, Field.Store.YES, Field.Index.ANALYZED));
doc.Add(new Field("Field3", myObject.Field3, Field.Store.YES, Field.Index.ANALYZED));

(...)
writer.AddDocument(doc);
}

在我的搜索方法中,我尝试使用PhraseQuery:

    public static IEnumerable<MyObject> Search(string phrase)
{

var luceneDir = FSDirectory.Open(new DirectoryInfo(LuceneDir));
var indexReader = IndexReader.Open(luceneDir, true);
var searcher = new IndexSearcher(indexReader);
var phraseQuery = new PhraseQuery();
phraseQuery.Add(new Term("Field1", phrase));
const int maxHits = 1000;
var collector = TopScoreDocCollector.Create(maxHits, false);
searcher.Search(phraseQuery, collector);
var hits = collector.TopDocs().ScoreDocs;
return MapLuceneToDataList(hits, searcher).ToList();
}

总是有 0 次点击(尽管有匹配的对象)

当我像这样使用 BooleanQuery 时:

    public static IEnumerable<MyObject> Search(string phrase)
{

var luceneDir = FSDirectory.Open(new DirectoryInfo(LuceneDir));

var indexReader = IndexReader.Open(luceneDir, true);
var searcher = new IndexSearcher(indexReader);
var terms = phrase.Split(new[] { " " }, StringSplitOptions.RemoveEmptyEntries);
var analyzer = new StandardAnalyzer(Version.LUCENE_30);
var queryParser = new MultiFieldQueryParser
(Version.LUCENE_30,
new[] { "Field1", "Field2", "Field3"},
analyzer) { FuzzyMinSim = 0.8f };
var booleanQuery = new BooleanQuery();
foreach (var term in terms)
{
booleanQuery.Add(queryParser.Parse(term.Replace("~", "") + "~"), Occur.MUST);
}
const int maxHits = 1000;
var collector = TopScoreDocCollector.Create(maxHits, false);
searcher.Search(booleanQuery, collector);
var hits = collector.TopDocs().ScoreDocs;
return MapLuceneToDataList(hits, searcher).ToList();
}

它工作得很好,但我不需要“大或猫”,我需要我之前描述过的东西。我使用 PhraseQuery 做错了什么?

最佳答案

您的PhraseQuery有两个问题。

正如 @groverboy 所说,您必须将单独的术语单独添加到 PhraseQuery 中。虽然 Query.toString() 可能显示相同的内容,但它们不是同一件事。 toString 方法不会显示 PhraseQuery 中的换词符。它尝试以尽可能接近标准 QueryParser 语法来表示查询,该语法无法表示使用 Query API 手动构建的任何可能的查询。您创建的 PhraseQuery 不会通过分析器运行,因此永远不会被标记化。它只会查找单个标记“big cat”,而不是两个相邻的标记“big”和“cat”。

explain method提供了比 toString 更完整的信息,因此您可能会发现它是一个有用的工具。

此外,您似乎也不想要相邻的标记,但您需要在查询中加入一些内容。您希望“大猫”与“大白猫”相匹配,因此您需要设置足够的允许溢出级别。

所以,像这样:

    var phraseQuery = new PhraseQuery();            
phraseQuery.Add(new Term("Field1", "big"));
phraseQuery.Add(new Term("Field1", "cat"));
phraseQuery.setSlop(1);

如果您愿意,也可以通过查询解析器运行查询。简而言之,使用您在第三个代码块中创建的分析器。您可以为查询解析器设置默认短语 slop,以处理所讨论的 slop 问题。像这样的东西:

queryParser.setPhraseSlop(1)
queryParser.Parse("\"" + phrase + "\"")
// Or maybe just: queryParser.Parse(phrase);

关于c# - 简单的 PhraseQuery 找不到任何结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20563043/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com