gpt4 book ai didi

hibernate - hibernate 全文搜索-按相关性排序结果

转载 作者:行者123 更新时间:2023-12-03 02:19:58 25 4
gpt4 key购买 nike

我正在尝试使用Hibernate Search 5.5.0.Final进行全文查询(我已经尝试使用最新版本,但是由于我使用的是Hibernate的旧版本(5.0.12)而无法使用)。
我想要获得的最终结果如下:

Display at the top of the list the result that matches on the description field with the following logic:
(Let' assume a user is searching "Milk")
-Results having the word at the beginning (Milk UHT)
-Results having the word in second or third position (Chocolate Milk)
-Results having the word in a phrase(MilkShake)
Then displaying the result matching with the field tags (Lactose free, Gluten Free etc)
到目前为止,这是我所做的:
FullTextEntityManager fullTextEntityManager
= Search.getFullTextEntityManager(entityManager);
fullTextEntityManager.createIndexer().startAndWait();


FullTextEntityManager fullTextEntityManager2
= Search.getFullTextEntityManager(entityManager);

QueryBuilder queryBuilder = fullTextEntityManager2.getSearchFactory()
.buildQueryBuilder()
.forEntity(ProductEntity.class)
.get();


Query myQuery = queryBuilder
.bool()
.should(queryBuilder.keyword()
.onField("description").boostedTo(9l).matching(query)
.createQuery())
.should(queryBuilder.phrase()
.onField("description").boostedTo(5l).sentence(query)
.createQuery())

.should(queryBuilder.keyword()
.onField("tags").boostedTo(3l).matching(query)
.createQuery())
.should(queryBuilder.phrase()
.onField("tags").boostedTo(1l).sentence(query)
.createQuery())

.createQuery();


org.hibernate.search.jpa.FullTextQuery jpaQuery
= fullTextEntityManager.createFullTextQuery(myQuery, ProductEntity.class);

return jpaQuery.getResultList();
我在互联网上阅读了很多书,但仍然无法获得理想的结果。
这有可能吗?你能给我一个提示吗?
提前致谢

最佳答案

首先,要知道提升不是分配给每个查询的恒定权重;而是乘数。因此,当您在查询#4上将boost设置为1并将在查询#3上将boost设置为3时,如果它的基本得分是查询#3的三倍以上,从理论上讲,查询#4最终会以更高的“提升得分” 。为了避免这种问题,您可以将每个查询的分数标记为常量(使用.boostedTo(3l).withConstantScore().onField("tags")而不是.onField("tags").boostedTo(3l))。
其次,短语查询不是您想的那样。短语查询接受一个多词输入字符串,并将查找包含这些词的顺序相同的文档。由于您只通过了一个学期,所以毫无意义。所以您还需要其他东西。
查询1:结果以单词开头
我相信,准确地执行所需操作的唯一方法是跨度查询。但是,它们不是Hibernate Search DSL的一部分,因此您必须依赖于低级Lucene API。而且,我从未使用过它们,并且不确定如何使用它们。。。。。。。。。。。。。。。。。。。。。。。。。。。。
您可以尝试类似的方法,但是如果它不起作用,则您必须自己调试(我不知道比您了解更多):

    QueryBuilder queryBuilder = fullTextEntityManager2.getSearchFactory()
.buildQueryBuilder()
.forEntity(ProductEntity.class)
.get();
Analyzer analyzer = fullTextEntityManager.getSearchFactory()
.getAnalyzer(ProductEntity.class);

Query myQuery = queryBuilder
.bool()
.should(new BoostQuery(new ConstantScoreQuery(createSpanQuery(qb, "description", query, analyzer)), 9L))
[... add other clauses here...]
.createQuery();

// Other methods (to be added to the same class)

private static Query createSpanQuery(QueryBuilder qb, String fieldName, String searchTerms, Analyzer analyzer) {
BooleanJunction bool = qb.bool();
List<String> terms = analyze(fieldName, searchTerms, analyzer);
for (int i = 0; i < terms.size(); ++i) {
bool.must(new SpanPositionRangeQuery(new SpanTermQuery(new Term( fieldName, terms.get(i))), i, i);
}
return bool.createQuery();
}

private static List<String> analyze(String fieldName, String searchTerms, Analyzer analyzer) {
List<String> terms = new ArrayList<String>();
try {
final Reader reader = new StringReader( searchTerms );
final TokenStream stream = analyzer.tokenStream( fieldName, reader );
try {
CharTermAttribute attribute = stream.addAttribute( CharTermAttribute.class );
stream.reset();
while ( stream.incrementToken() ) {
if ( attribute.length() > 0 ) {
String term = new String( attribute.buffer(), 0, attribute.length() );
terms.add( term );
}
}
stream.end();
}
finally {
stream.close();
}
}
catch (IOException e) {
throw new IllegalStateException( "Unexpected exception while analyzing search terms", e );
}
return terms;
}

查询2:将单词排在第二或第三位置的结果
我相信您可以使用与查询1相同的代码,但要添加一个偏移量。如果实际位置无关紧要,并且您将接受第四或第五位的单词,则只需执行以下操作:
queryBuilder.keyword().boostedTo(5l).withConstantScore()
.onField("description").matching(query)
.createQuery()
查询3:在词组中包含单词的结果(MilkShake)
据我了解,您的意思是“结果包含一个包含搜索词的单词”。
您可以为此使用通配符查询,但是不幸的是,这些查询不适用于分析器,从而导致区分大小写的搜索(以及其他问题)。
最好的选择可能是为此查询定义一个单独的字段,例如 description_ngram,并为其分配一个特制的分析器,该分析器在建立索引时使用ngram标记器。 ngram标记器只需输入一个输入字符串并将其转换为所有子字符串:“milkshake”将变为 ["m", "mi", "mil", "milk", ..., "milkshake", "i", "il", "ilk", "ilks", "ilksh", ... "ilkshake", "l", ... "lkshake", ..., "ke", "e"]。显然,这会占用大量磁盘空间,但可以用于小型数据集。
您将找到类似用例 Elasticsearch's documentation的说明。答案提到了一个不同的分析器“edgengram”,但是在您的情况下,您确实要使用“ngram”分析器。
另外,如果您确定索引文本的格式正确,可以清楚地区分“复合”字词的各个组成部分(例如“奶昔”,“奶昔”,...),则只需创建一个字段(例如 description_worddelimiterfilter)使用带有词定界符过滤器的分析器(请参阅 org.apache.lucene.analysis.miscellaneous.WordDelimiterFilter),该过滤器将拆分这些复合词。然后,您可以像这样简单地查询:
queryBuilder.keyword().boostedTo(3l).withConstantScore()
.onField("description_worddelimiterfilter")
.matching(query)
.createQuery()

关于hibernate - hibernate 全文搜索-按相关性排序结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62647105/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com