gpt4 book ai didi

java - 如何在 lucene 4.0 中使用 ngram tokenizer?

转载 作者:行者123 更新时间:2023-12-01 21:28:47 25 4
gpt4 key购买 nike

我正在研究不带空格的文本索引大型文本文件。目前我有 ngram 方法来生成长度为 12 的字符串,然后对它们进行索引。与搜索方式相同,我从用户处获取字符串,生成 12 的 ngram,然后使用它来构建查询。在搜索时,请阅读 lucene 中存在的 ngram tokenizer。但找不到太多例子。

如何在 lucene 4.0 中实现 ngram tokenizer ?

最佳答案

使用 NGramTokenizer 的最简单方法可能是使用 this constructor只需要一个阅读器以及最小和最大克大小。您可以将其合并到分析器中,类似于 Analyzer docs 上的示例。像这样的东西:

Analyzer analyzer = new Analyzer() {
@Override
protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
Tokenizer source = new NGramTokenizer(reader, 12, 12);
TokenStream filter = new LowercaseFilter(source);
return new TokenStreamComponents(source, filter);
}
};

关于java - 如何在 lucene 4.0 中使用 ngram tokenizer?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17407489/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com