gpt4 book ai didi

elasticsearch - Elasticsearch-用逗号分割-分割过滤器Logstash

转载 作者:行者123 更新时间:2023-12-03 02:21:25 27 4
gpt4 key购买 nike

我有一个值是动态的字段。我想将空格分隔的 token 存储在completion suggester的数组字段中

假设我的字段valhi how are you,那么我想使用[hi how are you, how are you, are you, you]设置数组

我尝试使用split filter作为csv中的数据。我做不到。无论如何,仅使用ES Logstash即可做到这一点。

最佳答案

根据我链接到的解决方案,可以实现以下目标。

首先创建一个利用script处理器构建所需输入数组的摄取管道:

PUT _ingest/pipeline/csv-parser
{
"processors": [
{
"csv": {
"field": "message",
"target_fields": [
"val",
"val_type",
"id"
]
}
},
{
"script": {
"source": """
def tokens = new ArrayList(Arrays.asList(/\s+/.split(ctx.val)));
def nbTokens = tokens.size();
def input = [];
for (def i = nbTokens; i > 0; i--) {
input.add(tokens.join(" "));
tokens.remove(0);
}

ctx.val = [
'input': input,
'contexts': [
'type': [ctx.val_type]
]
]
"""
}
},
{
"remove": {
"field": "message"
}
}
]
}

然后,您可以像这样索引文档:
PUT index/_doc/1?pipeline=csv-parser
{
"message": "hi how are you,seller,10223667"
}

生成的文档将如下所示:
GET index/_doc/1
->
{
"val" : {
"input" : [
"hi how are you",
"how are you",
"are you",
"you"
],
"contexts" : {
"type" : [
"seller"
]
}
},
"val_type" : "seller",
"id" : "10223667"
}

关于elasticsearch - Elasticsearch-用逗号分割-分割过滤器Logstash,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62281609/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com