- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Lucene 3.2。如何使用不仅可以过滤/修改术语,还可以将其他术语插入流中的 TokenFilter?
例如,我想要一个将“tv42lcd”作为输入并在流中插入单词“tv42lcd”、“tv”、“42”、“lcd”的过滤器。
我知道我可以通过实现我自己的 Tokenizer 来做到这一点。但我宁愿仍然使用提供的 StandardTokenizer。
最佳答案
您始终可以将默认值与自定义混合使用:尽可能使用 StandardTokenizer
逻辑,然后包装其输出并在顶部添加自定义标记化。您可以通过扩展来实现,但它是 almost always better to use composition .
关于java - 在 Lucene 中,TokenFilter 如何发出多个术语?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6387939/
我正在尝试编写一个简单的 Solr 词形还原器以用于字段类型,但我似乎找不到有关编写 TokenFilter 的任何信息,所以我有点迷路了。这是我到目前为止的代码。 import java.io.IO
我正在使用 Lucene 3.2。如何使用不仅可以过滤/修改术语,还可以将其他术语插入流中的 TokenFilter? 例如,我想要一个将“tv42lcd”作为输入并在流中插入单词“tv42lcd”、
我正在使用 Lucene 索引科学文章。我正在使用以下配置: EnglishAnalyzer analyzer = new EnglishAnalyzer(Version.LUCENE_43, Eng
There are no examples in the documentation ,我只是想知道我给它的输入会得到什么。 最佳答案 在 Elasticsearch 0.16 (Lucene 3.1
我创建了一个自定义 token 过滤器,它连接流中的所有 token 。这是我的 incrementToken()功能 public boolean incrementToken() throws I
我一直在为我的一个新项目使用 ElasticSearch。我已将默认分析器设置为使用 ngram 标记过滤器。这是我的 elasticsearch.yml 文件: index: analysis:
我的程序需要使用 Lucene (4.10) 索引非结构化文档,其内容可以是任何内容。所以我的自定义分析器正在使用 ClassicTokenizer 来首先标记文档。 但它并不完全符合我的需求,因为例
我是一名优秀的程序员,十分优秀!