gpt4 book ai didi

elasticsearch 自定义标记器 - 按长度拆分标记

转载 作者:行者123 更新时间:2023-11-29 02:49:47 24 4
gpt4 key购买 nike

我使用的是 elasticsearch 1.2.1 版。我有一个用例,在该用例中,我想创建一个自定义分词器,该分词器将按其长度将分词打断到某个最小长度。例如,假设最小长度为 4, token “abcdefghij”将被拆分为:“abcd efgh ij”。

我想知道是否可以在不需要编写自定义 Lucene Tokenizer 类代码的情况下实现此逻辑?

提前致谢。

最佳答案

根据您的要求,如果您不能使用 pattern tokenizer 做到这一点那么您需要自己编写一个自定义的 Lucene Tokenizer 类。您可以为其创建自定义 Elasticsearch 插件。可以引用this有关如何为自定义分析器创建 Elasticsearch 插件的示例。

关于elasticsearch 自定义标记器 - 按长度拆分标记,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28396664/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com