solr - Lucene 分析器链 : ShingleFilter without filler tokens-6ren

solr - Lucene 分析器链 : ShingleFilter without filler tokens

转载作者：行者123 更新时间：2023-12-01 11:42:14

25

4

在我的分析器链中，ShingleFilter 位于停用词过滤器之后。如 docs 中所述, ShingleFilter 通过插入填充标记(带有术语文本“_”的标记)处理位置增量 > 1。

For example : "please divide this sentence into biword shingles" 

Shingles of size 2 : please divide, divide _, _ sentence, sentence _, _ biword, biword shingles (assuming that "this, "into" are stopwords)

我想用填充标记消除那些带状疱疹，即我想要的输出只包含:请除，双字带状疱疹。

我有一个专门用于 4 克带状疱疹刻面的字段。由于这些停用词，所有方面约束(或值)对于像 "divide _ sentence _"

这样的填充物来说看起来毫无用处

请你指导我。

使用 Solr 4.4。

更新

我想在 StopFilter 配置中将 enablePositionIncrement 设置为 false。不确定这是否解决了问题，但 Lucene 4.4 不再支持它。

最佳答案

在 ShingleFilterFactory 之后的分析器链中添加 PatternReplaceFilterFactory。将所有包含填充 token 的 token 替换为空字符串，即“”。

这可能会暂时解决您的问题，但永久解决方案必须编写您自己的分析器或自定义 ShingleFilter。

示例字段类型:

<fieldType name="text_general_shingle" class="solr.TextField" positionIncrementGap="100">     
        <analyzer>
       <tokenizer class="solr.StandardTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />       
        <filter class="solr.LowerCaseFilterFactory"/>           
        <filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true"/>
        <filter class="solr.PatternReplaceFilterFactory" pattern=".*_.*" replacement=""/>       
    </analyzer>     
    </fieldType>

关于solr - Lucene 分析器链 : ShingleFilter without filler tokens，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18885764/

25

4

0

文章推荐： javascript - Javascript中函数参数的评估顺序是什么？

文章推荐： java - 错误如下所述

文章推荐： text - 为什么 CGContextSetRGBStrokeColor 不适用于 ios7？

prolog - 我的 Prolog "list filler"有什么问题吗？
我编写了一个简单的程序来尝试使用满足特定约束的元素填充给定长度的列表。例如，我想创建一个 0 到 9 之间的 4 个整数的列表，其中至少包含 3 和 4。我可以想到几个(实际上是数千个)这样的列表:
mysql - 获取 GROUP BY 的 "filler"空值
假设我想从某个日期范围获取“每周”结果，并且该日期范围包含四个单独的周，但我的数据库只有一周的记录，如何获取剩余三周的填充值？例如，给定以下日期范围:6/2018 - 7/2018 我运行此查询:
solr - Lucene 分析器链 : ShingleFilter without filler tokens
在我的分析器链中，ShingleFilter 位于停用词过滤器之后。如 docs 中所述, ShingleFilter 通过插入填充标记(带有术语文本“_”的标记)处理位置增量 > 1。 For ex
java - 为什么我可以从另一个包访问非公共(public) javax.swing.Box.Filler？
This page Java教程中的问题2d让我非常困惑。查看Java文档here ，看来静态嵌套类 javax.swing.Box.AccessibleBox 是 protected ，因此可以在子
c# - 已知的 "filler"单词列表；如何使用 C# 提取好的关键字？
如果我有一段英文文本，清除所有“填充”词(如“the、it、or、we、us”等)的最佳方法是什么...只留下可行的词被认为是文本的真实核心内容？我正在集思广益，想出一种方法，根据关键字组成的相似程
c - 注意: expected ‘struct filler’ but argument is of type ‘struct Info’
我正在尝试将一个结构从 main 发送到 .h 文件以便在那里进行操作。这是我的 .c 中的代码: #include #include #include #include "funcon.h"
vim - 目标 : Remove filler --- -'s after fold title || Issue: set fillchars=""does not work in NeoVim
这是我的整个 init.vim 文件(目前只是试图让它工作 - 一旦主要目标正常工作，我将删除不必要的代码)。我面临的问题: 一旦我折叠了我的代码部分，我就无法摆脱尾随的 -'s。 Fold 的 x
python-3.x - plot_decision_regions 错误 "Filler values must be provided when X has more than 2 training features."
我正在为 SVC Bernoulli 输出绘制二维图。从 Avg word2vec 和标准数据转换为向量拆分数据以进行训练和测试。通过网格搜索找到最好的C和gamma(rbf) clf = SV

首页

博学

6Ren·AI

商城

solr - Lucene 分析器链 : ShingleFilter without filler tokens