gpt4 book ai didi

indexing - 多语言 ElasticSearch 支持

转载 作者:行者123 更新时间:2023-11-29 02:56:27 26 4
gpt4 key购买 nike

我正在为来自世界各地但主要是泰国的消息编制索引。索引消息很可能包含英语或泰语。

有谁知道设置 ES 索引的最佳方法,以便它可以为泰语和英语搜索返回良好的搜索结果?

我试过使用这个设置:

{
"settings": {
"analysis" : {
"analyzer" : {
"default" : {
"type" : "cjk"
}
}
}
}
}

用泰语搜索时,cjk 分析器的结果不是很好。我实际上不知道为什么会这样,但非常感谢任何帮助!

最佳答案

cjk 分析器用于为中文日语韩语 生成二元语法,但不支持泰语。由于泰语是一种非空间语言,因此该分析器不会标记句子。推荐用于泰语的分析器是 thai 分析器。

{
"settings": {
"analysis" : {
"analyzer" : {
"default" : {
"type" : "thai"
}
}
}
}
}

还有其他选项可以使用提供 icu_tokenizerICU 分析插件 来分析泰国数据。此分词器支持泰语老挝语中文日语韩语语言。您可以通过此链接找到该插件:ICU Analysis Plugin

安装插件后,您可以这样使用分词器:

{
"settings": {
"analysis" : {
"analyzer" : {
"default" : {
"type": "custom",
"tokenizer": "icu_tokenizer"
}
}
}
}
}

关于indexing - 多语言 ElasticSearch 支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22286809/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com