gpt4 book ai didi

elasticsearch - 如何从elasticsearch标记器中删除一个定界符?

转载 作者:行者123 更新时间:2023-12-02 23:48:00 26 4
gpt4 key购买 nike

我正在使用Elasticsearch 6.8进行文本搜索。我意识到elasticsearch标记生成器通过使用此处列出的定界符http://unicode.org/reports/tr29/#Default_Word_Boundaries将文本分解为单词。我正在使用match_phase搜索文档中的一个字段,并且想删除一个tokenizer使用的分隔符。

我进行了一些搜索,找到了一些解决方案,例如,使用keyword而不是text。由于该解决方案不支持部分查询,因此会对我的搜索功能产生重大影响。

另一种解决方案是使用keyword查询,但使用通配符支持部分查询。但这可能会影响查询的性能。而且,我仍然喜欢将tokenizer用于其他定界符。

第三种选择是使用tokenize_on_chars定义用于标记文本的所有字符。但这要求我列出所有其他定界符。所以我正在寻找类似tokenize_except_chars的东西。

那么,是否有一种简单的方法可以让我从Elasticsearch6.8中使用的定界符中删除一个字符?

最佳答案

我发现elasticsearch支持protected_words可以完成这项工作。可以在https://www.elastic.co/guide/en/elasticsearch/reference/6.8/analysis-word-delimiter-tokenfilter.html中找到更多信息

关于elasticsearch - 如何从elasticsearch标记器中删除一个定界符?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59815656/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com