- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试对我的数据中的 3 个字段实现 Lucene 搜索。它应该按如下方式工作:当字段文本是“我的大白猫”时,当我搜索“大猫”时,它会匹配。
根据教程,我添加了 AddToLuceneIndex
方法:
private static void AddToLuceneIndex(MyObject myObject, IndexWriter writer)
{
var searchQuery = new TermQuery(new Term("Id", myObject.Id));
writer.DeleteDocuments(searchQuery);
var doc = new Document();
doc.Add(new Field("Field1", myObject.Field1, Field.Store.YES, Field.Index.ANALYZED));
doc.Add(new Field("Field2", myObject.Field2, Field.Store.YES, Field.Index.ANALYZED));
doc.Add(new Field("Field3", myObject.Field3, Field.Store.YES, Field.Index.ANALYZED));
(...)
writer.AddDocument(doc);
}
在我的搜索方法中,我尝试使用 PhraseQuery
:
public static IEnumerable<MyObject> Search(string phrase)
{
var luceneDir = FSDirectory.Open(new DirectoryInfo(LuceneDir));
var indexReader = IndexReader.Open(luceneDir, true);
var searcher = new IndexSearcher(indexReader);
var phraseQuery = new PhraseQuery();
phraseQuery.Add(new Term("Field1", phrase));
const int maxHits = 1000;
var collector = TopScoreDocCollector.Create(maxHits, false);
searcher.Search(phraseQuery, collector);
var hits = collector.TopDocs().ScoreDocs;
return MapLuceneToDataList(hits, searcher).ToList();
}
总有 0 次命中(尽管有匹配的对象)
当我像这样使用 BooleanQuery 时:
public static IEnumerable<MyObject> Search(string phrase)
{
var luceneDir = FSDirectory.Open(new DirectoryInfo(LuceneDir));
var indexReader = IndexReader.Open(luceneDir, true);
var searcher = new IndexSearcher(indexReader);
var terms = phrase.Split(new[] { " " }, StringSplitOptions.RemoveEmptyEntries);
var analyzer = new StandardAnalyzer(Version.LUCENE_30);
var queryParser = new MultiFieldQueryParser
(Version.LUCENE_30,
new[] { "Field1", "Field2", "Field3"},
analyzer) { FuzzyMinSim = 0.8f };
var booleanQuery = new BooleanQuery();
foreach (var term in terms)
{
booleanQuery.Add(queryParser.Parse(term.Replace("~", "") + "~"), Occur.MUST);
}
const int maxHits = 1000;
var collector = TopScoreDocCollector.Create(maxHits, false);
searcher.Search(booleanQuery, collector);
var hits = collector.TopDocs().ScoreDocs;
return MapLuceneToDataList(hits, searcher).ToList();
}
它运行良好,但我不需要“big OR cat”,我需要我之前描述过的东西。我在使用 PhraseQuery
时做错了什么?
最佳答案
您的PhraseQuery
有两个问题。
如@groverboy 所述,您必须将单独的术语单独添加到 PhraseQuery
。虽然 Query.toString()
可能显示相同的内容,但它们并不是同一回事。 toString 方法不显示 PhraseQuery
中的术语分隔符。它尝试以接近标准 QueryParser
语法的方式表示查询,该语法无法表达使用 Query
API 手动构建的任何可能的查询。您创建的 PhraseQuery
不会通过分析器运行,因此永远不会被标记化。它只会查找单个标记“big cat”,而不是两个相邻的标记“big”和“cat”。
explain method提供比 toString
更完整的信息,因此您可能会发现它是一个有用的工具。
此外,您似乎也不需要相邻标记,而是需要将一些斜率合并到查询中。您希望“大猫”与“大白猫”匹配,因此您需要设置足够的允许斜率。
所以,像这样:
var phraseQuery = new PhraseQuery();
phraseQuery.Add(new Term("Field1", "big"));
phraseQuery.Add(new Term("Field1", "cat"));
phraseQuery.setSlop(1);
如果愿意,您也可以只通过查询解析器运行查询。简单地说,使用您在第三个代码块中创建的分析器。您可以为查询解析器设置默认短语 slop,以处理讨论的 slop 问题。像这样的东西:
queryParser.setPhraseSlop(1)
queryParser.Parse("\"" + phrase + "\"")
// Or maybe just: queryParser.Parse(phrase);
关于c# - 简单的 PhraseQuery 找不到任何结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20563043/
当我使用 PhraseQuery 对名为“content”的字段进行研究时,出现异常。 为了索引这个字段,我使用 org.apache.lucene.document.TextField 类,因为该字
我想解析用户请求“Hello world!”通过我的自定义分析器并使用 PhraseQuery 搜索抛出“标题”、“描述”字段 我found我的问题的疯狂解决方案,但它看起来没有优化 最佳答案 尝试
我正在尝试对我的数据中的 3 个字段实现 Lucene 搜索。它应该按如下方式工作:当字段文本是“我的大白猫”时,当我搜索“大猫”时,它会匹配。 根据教程,我添加了 AddToLuceneIndex
我正在尝试对我的数据中的 3 个字段实现 Lucene 搜索。它应该按如下方式工作:当字段文本是“我的大白猫”时,当我搜索“大猫”时,它会匹配。 根据教程,我添加了 AddToLuceneIndex
我从 Lucene 上的各种教程中得到的印象是,如果我执行以下操作: IndexWriter writer = new IndexWriter(indexPath, new StandardAnaly
出于某种原因,我无法从 3552 个项目的有效索引中找到任何结果。 请参阅下面的代码,然后是我运行程序时的控制台输出。 3552 是索引文档的数量。 /c:/test/stuff.txt 是从文档 5
我在 ElasticSearch 中有一个具有以下映射的索引: mappings: { feed: { properties: { html_url:
我尝试使用PhraseQuery,但无法从搜索中获得命中。我正在使用 Lucene 4.5.0。 我的索引代码 private IndexWriter writer; public LuceneInd
我是 Apache Lucene 的新手。我正在使用 Apache Lucene v7.2.1。我需要在一个巨大的文件中进行短语搜索。我首先制作了一个示例代码,以使用 PhraseQuery 在 Lu
基本上,我希望能够使用以下查询“短语查询”AND date:[20180101 TO 20181231]来查询索引。我尝试使用 MultiFieldQueryParser,但出现以下错误: 线程“ma
我是一名优秀的程序员,十分优秀!