gpt4 book ai didi

elasticsearch - Elasticsearch 中的子字段聚合分组

转载 作者:行者123 更新时间:2023-11-29 02:53:36 27 4
gpt4 key购买 nike

我找不到正确的语法来获取按计数字段排序的子对象的聚合。

twitter 文档就是一个很好的例子:

{
"properties" : {
"id" : {
"type" : "long"
},
"message" : {
"type" : "string"
},
"user" : {
"type" : "object",
"properties" : {
"id" : {
"type" : "long"
},
"screenName" : {
"type" : "string"
},
"followers" : {
"type" : "long"
}
}
}
}
}

我将如何为一组给定的推文获得顶级影响者?这将是按“user.followers”字段排序的前 10 个“用户”对象的唯一列表。

我尝试使用 top_hits 但出现异常:

org.elasticsearch.common.breaker.CircuitBreakingException: [FIELDDATA] Data too large, data for [user.id]

"aggs": {
"top-influencers": {
"terms": {
"field": "user.id",

"order": {
"top_hit": "desc"
}
},
"aggs": {
"top_tags_hits": {
"top_hits": {}
},
"top_hit": {
"max": {
"field": "user.followers"
}
}
}
}
}

我几乎可以使用查询中的“排序”字段(无聚合)获得我想要的结果,但是如果用户有多个推文,那么它们将在结果中出现两次。我需要能够按子对象“用户”进行分组,并且每个用户只返回一次。

---更新---

我已经成功地获得了及时返回的顶级用户列表。不幸的是,它仍然不是唯一的。文档还说 top_hits 被设计成一个 sub agg...,我将它用作顶级 agg...

"aggs": {
"top_influencers": {
"top_hits": {
"sort": [
{
"user.followers": {
"order": "desc"
}
}
],
"_source": {
"include": [
"user.id",
"user.screenName",
"user.followers"
]
},
"size": 10
}
}
}

最佳答案

试试这个:

{
"aggs": {
"GroupByType": {
"terms": {
"field": "user.id",
"size": 10000
},
"aggs": {
"Group": {
"top_hits":{
"size":1,
"_source": {
"includes": ["user.id", "user.screenName", "user.followers"]
},
"sort":[{
"user.followers": {
"order": "desc"
}
}]

}
}
}
}
}
}

然后您可以获取此查询的前 10 个结果。请注意, Elasticsearch 中的正常搜索最多只能搜索 10000 条记录。

关于elasticsearch - Elasticsearch 中的子字段聚合分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27777928/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com