gpt4 book ai didi

elasticsearch - 筛选数组项目上的术语汇总

转载 作者:行者123 更新时间:2023-12-03 01:34:48 32 4
gpt4 key购买 nike

我想对数组内的术语进行汇总,但是我只对某些数组项感兴趣。我做了一个简化的例子。基本上,如果Type.stringType.field,我想在valid上进行汇总。

POST so/question
{
"Type": [
[
{
"field": "invalid",
"string": "A"
}
],
[
{
"field": "valid",
"string": "B"
}
]
]
}

GET /so/_search
{
"size": 0,
"aggs": {
"xxx": {
"filter": {
"term": {
"Type.field": "valid"
}
},
"aggs": {
"yyy": {
"terms": {
"field": "Type.string.keyword",
"min_doc_count": 0
}
}
}
}
}
}

聚合结果有2个键,而我只需要“B”键。
"aggregations": {
"xxx": {
"doc_count": 1,
"yyy": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "A",
"doc_count": 1
},
{
"key": "B",
"doc_count": 1
}
]
}
}
}

有没有一种方法可以汇总与过滤器匹配的数组项?
不幸的是,我无法更改数据格式,这将是显而易见的解决方案。

最佳答案

除非文档是Nested Type,否则我认为使用简单数组类型是不可能的,因为Elasticsearch Flattens是对象存储方式。

查询这些展平对象上的任何内容都会给您完全意外的结果。

现在,我提出了以下查询,对于您在问题中提到的文档,使用Terms Aggregation using Script非常合适

POST so/_search
{

"size": 0,
"aggs": {
"xxx": {
"filter": {
"term": {
"Type.field": "valid"
}
},
"aggs": {
"yyy": {
"terms": {
"script": {
"source": """
int size = doc['Type.string.keyword'].values.length;
for(int i=0; i<size; i++){
String myString = doc['Type.string.keyword'][i];
if(myString.equals("B") && doc['Type.field.keyword'][i].equals("valid")){
return myString;
}
}""",
"lang": "painless"
}
}
}
}
}
}
}

但是,如果您摄取以下文档,则会发现聚合响应将完全不同。这是因为数组类型不会将每个 Type.field值和 Type.string值存储在它们各自数组中的 ith位置中。
POST so/question/2
{
"Type": [
[
{
"field": "valid",
"string": "A"
}
],
[
{
"field": "invalid",
"string": "B"
}
]
]
}

请注意,即使是以下简单的 Bool查询也无法按预期工作,最终显示了两个文档。
POST so/_search
{
"query": {
"bool": {
"must": [
{ "match": { "Type.field.keyword": "valid" }},
{ "match": { "Type.string.keyword": "B" }}
]
}
}
}

希望能帮助到你!

关于elasticsearch - 筛选数组项目上的术语汇总,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53267836/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com