java - 在 Lucene 中，TokenFilter 如何发出多个术语？-6ren

java - 在 Lucene 中，TokenFilter 如何发出多个术语？

转载作者：行者123 更新时间：2023-11-30 11:53:17

26

4

我正在使用 Lucene 3.2。如何使用不仅可以过滤/修改术语，还可以将其他术语插入流中的 TokenFilter？

例如，我想要一个将“tv42lcd”作为输入并在流中插入单词“tv42lcd”、“tv”、“42”、“lcd”的过滤器。

我知道我可以通过实现我自己的 Tokenizer 来做到这一点。但我宁愿仍然使用提供的 StandardTokenizer。

最佳答案

您始终可以将默认值与自定义混合使用:尽可能使用 StandardTokenizer 逻辑，然后包装其输出并在顶部添加自定义标记化。您可以通过扩展来实现，但它是 almost always better to use composition .

关于java - 在 Lucene 中，TokenFilter 如何发出多个术语？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6387939/

26

4

0

文章推荐： swift - 通过按下按钮更新 UIView

文章推荐： java - 在性能测试中应该使用哪个 FOSS Java 应用程序？

文章推荐： java - 扩展的 MultipartEntity 没有正确写出 Streams

文章推荐： Java:导入 RSyntaxTextArea 库？

java - 自定义 Solr TokenFilter 词形还原器
我正在尝试编写一个简单的 Solr 词形还原器以用于字段类型，但我似乎找不到有关编写 TokenFilter 的任何信息，所以我有点迷路了。这是我到目前为止的代码。 import java.io.IO
java - 在 Lucene 中，TokenFilter 如何发出多个术语？
我正在使用 Lucene 3.2。如何使用不仅可以过滤/修改术语，还可以将其他术语插入流中的 TokenFilter？例如，我想要一个将“tv42lcd”作为输入并在流中插入单词“tv42lcd”、
java - Lucene TokenFilter 与 EnglishAnalyzer 用于删除科学文章中的数字
我正在使用 Lucene 索引科学文章。我正在使用以下配置: EnglishAnalyzer analyzer = new EnglishAnalyzer(Version.LUCENE_43, Eng
elasticsearch - Standard tokenfilter 在 Elasticsearch 中究竟做了什么？
There are no examples in the documentation ，我只是想知道我给它的输入会得到什么。最佳答案在 Elasticsearch 0.16 (Lucene 3.1
search - 添加自定义 TokenFilter 后，Solr(Lucene) 仅索引第一个文档
我创建了一个自定义 token 过滤器，它连接流中的所有 token 。这是我的 incrementToken()功能 public boolean incrementToken() throws I
n-gram - ElasticSearch n-gram tokenfilter 找不到部分单词
我一直在为我的一个新项目使用 ElasticSearch。我已将默认分析器设置为使用 ngram 标记过滤器。这是我的 elasticsearch.yml 文件: index: analysis:
java - 使用 Lucene TokenFilter 将 token 分解为子 token
我的程序需要使用 Lucene (4.10) 索引非结构化文档，其内容可以是任何内容。所以我的自定义分析器正在使用 ClassicTokenizer 来首先标记文档。但它并不完全符合我的需求，因为例

首页

博学

6Ren·AI

商城

java - 在 Lucene 中，TokenFilter 如何发出多个术语？