gpt4 book ai didi

elasticsearch - elasticsearch将 “H&R Blocks”标记为 “H”, “R”, “H&R”, “Blocks”

转载 作者:行者123 更新时间:2023-12-02 22:17:50 27 4
gpt4 key购买 nike

我想在 token 中保留特殊字符,同时仍对特殊字符进行 token 化。说我有话

"H&R Blocks"

我想将其标记为
"H", "R", "H&R", "Blocks"

我读了 http://www.fullscale.co/blog/2013/03/04/preserving_specific_characters_during_tokenizing_in_elasticsearch.html这个帖子。它解释了如何保留特殊字符。

最佳答案

尝试使用word_delimiter token 过滤器。

Reading the docs on its use,您可以将参数preserve_original: true设置为精确地执行您想要的操作(即“H&R” => H&R H R)。

我会这样设置:

"settings" : {
"analysis" : {
"filter" : {
"special_character_spliter" : {
"type" : "word_delimiter",
"preserve_original": "true"
}
},
"analyzer" : {
"your_analyzer" : {
"type" : "custom",
"tokenizer" : "whitespace",
"filter" : ["lowercase", "special_character_spliter"]
}
}
}
}

祝好运!

关于elasticsearch - elasticsearch将 “H&R Blocks”标记为 “H”, “R”, “H&R”, “Blocks”,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18223101/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com