- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在我的分析器链中,ShingleFilter 位于停用词过滤器之后。如 docs 中所述, ShingleFilter 通过插入填充标记(带有术语文本“_”的标记)处理位置增量 > 1。
For example : "please divide this sentence into biword shingles"
Shingles of size 2 : please divide, divide _, _ sentence, sentence _, _ biword, biword shingles (assuming that "this, "into" are stopwords)
我想用填充标记消除那些带状疱疹,即我想要的输出只包含:请除,双字带状疱疹。
我有一个专门用于 4 克带状疱疹刻面的字段。由于这些停用词,所有方面约束(或值)对于像 "divide _ sentence _"
这样的填充物来说看起来毫无用处请你指导我。
使用 Solr 4.4。
更新
我想在 StopFilter 配置中将 enablePositionIncrement 设置为 false。不确定这是否解决了问题,但 Lucene 4.4 不再支持它。
最佳答案
在 ShingleFilterFactory
之后的分析器链中添加 PatternReplaceFilterFactory
。将所有包含填充 token 的 token 替换为空字符串,即“”。
这可能会暂时解决您的问题,但永久解决方案必须编写您自己的分析器或自定义 ShingleFilter。
示例字段类型:
<fieldType name="text_general_shingle" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="solr.StandardTokenizerFactory"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.ShingleFilterFactory" maxShingleSize="3" outputUnigrams="true"/>
<filter class="solr.PatternReplaceFilterFactory" pattern=".*_.*" replacement=""/>
</analyzer>
</fieldType>
关于solr - Lucene 分析器链 : ShingleFilter without filler tokens,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18885764/
我编写了一个简单的程序来尝试使用满足特定约束的元素填充给定长度的列表。 例如,我想创建一个 0 到 9 之间的 4 个整数的列表,其中至少包含 3 和 4。我可以想到几个(实际上是数千个)这样的列表:
假设我想从某个日期范围获取“每周”结果,并且该日期范围包含四个单独的周,但我的数据库只有一周的记录,如何获取剩余三周的填充值? 例如,给定以下日期范围:6/2018 - 7/2018 我运行此查询:
在我的分析器链中,ShingleFilter 位于停用词过滤器之后。如 docs 中所述, ShingleFilter 通过插入填充标记(带有术语文本“_”的标记)处理位置增量 > 1。 For ex
This page Java教程中的问题2d让我非常困惑。查看Java文档here ,看来静态嵌套类 javax.swing.Box.AccessibleBox 是 protected ,因此可以在子
如果我有一段英文文本,清除所有“填充”词(如“the、it、or、we、us”等)的最佳方法是什么...只留下可行的词被认为是文本的真实核心内容? 我正在集思广益,想出一种方法,根据关键字组成的相似程
我正在尝试将一个结构从 main 发送到 .h 文件以便在那里进行操作。这是我的 .c 中的代码: #include #include #include #include "funcon.h"
这是我的整个 init.vim 文件(目前只是试图让它工作 - 一旦主要目标正常工作,我将删除不必要的代码)。 我面临的问题: 一旦我折叠了我的代码部分,我就无法摆脱尾随的 -'s。 Fold 的 x
我正在为 SVC Bernoulli 输出绘制二维图。 从 Avg word2vec 和标准数据转换为向量 拆分数据以进行训练和测试。 通过网格搜索找到最好的C和gamma(rbf) clf = SV
我是一名优秀的程序员,十分优秀!