Solr:使用 EdgeNGramFilterFactory 的精确短语查询-6ren

Solr:使用 EdgeNGramFilterFactory 的精确短语查询

转载作者：行者123 更新时间：2023-12-04 11:13:53

24

4

在 Solr (3.3) 中，是否可以通过 EdgeNGramFilterFactory 逐个字母地搜索字段？并且对短语查询也很敏感？

例如，我正在寻找一个字段，如果包含“contrat informatique”，则会在用户键入时找到该字段:

契约(Contract)

信息

控制

信息

"contrat informatique"

"联系信息"

目前，我做了这样的事情:

<fieldtype name="terms" class="solr.TextField">
    <analyzer type="index">
        <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <tokenizer class="solr.LowerCaseTokenizerFactory"/>
        <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
    </analyzer>
    <analyzer type="query">
        <charFilter class="solr.MappingCharFilterFactory" mapping="mapping-ISOLatin1Accent.txt"/>
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/>
        <tokenizer class="solr.LowerCaseTokenizerFactory"/>
    </analyzer>
</fieldtype>

...但它在短语查询上失败了。

当我查看 solr admin 中的模式分析器时，我发现“contrat informatique”生成了以下标记:

[...] contr contra contrat in inf info infor inform [...]

因此查询适用于“contrat in”(连续标记)，而不适用于“contrat inf”(因为这两个标记是分开的)。

我很确定任何类型的词干提取都可以用于短语查询，但是在 EdgeNGramFilterFactory 之前我找不到要使用的正确过滤器标记器.

最佳答案

默认情况下，由于查询 slop 参数 = 0，精确短语搜索不起作用。
搜索短语 '"Hello World"' 它搜索具有连续位置的术语。
我希望 EdgeNGramFilter 有一个参数来控制输出定位，这看起来像一个旧的 question .

通过将 qs 参数设置为某个非常高的值(超过 ngram 之间的最大距离)，您可以恢复短语。这部分解决了允许短语但不准确的排列的问题。
因此，搜索“contrat informatique”将匹配诸如“...contract disabled. Informatique...”之类的文本

enter image description here

支持精确我最终使用的短语查询 separate fields for ngrams .

所需步骤:

定义单独的字段类型来索引常规值和克数:

<fieldType name="text" class="solr.TextField" omitNorms="false">
  <analyzer>
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

<fieldType name="ngrams" class="solr.TextField" omitNorms="false">
  <analyzer type="index">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
    <filter class="solr.EdgeNGramFilterFactory" minGramSize="2" maxGramSize="15" side="front"/>
  </analyzer>
  <analyzer type="query">
    <tokenizer class="solr.StandardTokenizerFactory"/>
    <filter class="solr.LowerCaseFilterFactory"/>
  </analyzer>
</fieldType>

告诉 solr copy fields索引时:

您可以为每个字段定义单独的 ngrams 反射:

<field name="contact_ngrams" type="ngrams" indexed="true" stored="false"/>
<field name="product_ngrams" type="ngrams" indexed="true" stored="false"/>
<copyField source="contact_text" dest="contact_ngrams"/>
<copyField source="product_text" dest="product_ngrams"/>

或者您可以将所有 ngram 放入一个字段:

<field name="heap_ngrams" type="ngrams" indexed="true" stored="false"/>
<copyField source="*_text" dest="heap_ngrams"/>

请注意，在这种情况下，您将无法分离助推器。

最后一件事是在查询中指定 ngrams 字段和助推器。
一种方法是配置您的应用程序。
另一种方法是在 solrconfig.xml 中指定“附加”参数

   <lst name="appends">
     <str name="qf">heap_ngrams</str>
   </lst>

关于Solr:使用 EdgeNGramFilterFactory 的精确短语查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7612889/

24

4

0

文章推荐： r - texmaker 上的 knitr 错误

文章推荐： r - 在ggvis中动态选择组

文章推荐： r - 如何在 R 中使用命令 "pwd"加载数据？

文章推荐： r - 是否可以在 R 中使用 ifelse() 添加第三个虚拟变量？

Solr:使用 EdgeNGramFilterFactory 的精确短语查询
在 Solr (3.3) 中，是否可以通过 EdgeNGramFilterFactory 逐个字母地搜索字段？并且对短语查询也很敏感？例如，我正在寻找一个字段，如果包含“contrat inform
使用 EdgeNGramFilterFactory 和搜索查询的最小长度在 Solr 中搜索
在我的 solr 架构文件中，我有一个使用 EdgeNGramFilterFactory 的默认搜索字段假设我的搜索查询是 tes 所以我得到这样的结果: tess test tesla ...
solr - EdgeNGramFilterFactory 中的精确结果(Solr 搜索)
我在模式文件中使用 EdgeNGramFilterFactory 和配置
plugins - solr5 中的 EdgeNGramFilterFactory 更改
简短版本: 有谁知道 solr5 的 EdgeNGramFilterFactory 是否发生了什么事？它曾经在 solr 4 上运行良好，但我刚刚升级到 solr5，并且使用此过滤器具有此字段的核心拒
solr - NGramFilterFactory 和 EdgeNGramFilterFactory 的区别
我是 Solr 的初学者。在我的项目中，NGramFilterFactory和 EdgeNGramFilterFactory ，两者都用于一个字段。我对文档的理解是 EdgeNGramFilterFa
search - SOLR 中的 EdgeNGramTokenizerFactory EdgeNGramFilterFactory 有什么区别？
这两个过滤器有什么区别？它们的效果好像是一样的？任何人都可以提供如何将它们应用于某些文本的示例吗？最佳答案嗯，第一个提供了一个Tokenizer，第二个提供了一个Filter;-) 由于您只能拥
java - Solr:结合 EdgeNGramFilterFactory 和 NGramFilterFactory
我有一种情况需要同时使用 EdgeNGramFilterFactory 和 NGramFilterFactory。我正在使用 NGramFilterFactory 执行“包含”样式的搜索，最小字符数
apache - 边缘NGram : Error instantiating class: 'org.apache.lucene.analysis.ngram.EdgeNGramFilterFactory'
我已经设置了 Solr，到目前为止一切都运行得很好，但现在我想将 EdgeNGram 功能添加到我的搜索中。但是，一旦我将其放入 schema.xml，它就会开始抛出错误: org.apache.so

首页

博学

6Ren·AI

商城

Solr:使用 EdgeNGramFilterFactory 的精确短语查询