gpt4 book ai didi

elasticsearch - elasticsearch aggs 中的非重复计数大于 doc_count

转载 作者:行者123 更新时间:2023-11-29 02:57:09 25 4
gpt4 key购买 nike

我写了一些聚合查询来获取总数(总和)和唯一计数。但结果有点困惑。

唯一值大于 doc_count。
是否可以?

我知道 cardinality aggs 是实验性的,可以获得不同值的近似计数。
http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-aggregations-metrics-cardinality-aggregation.html

但是这个结果太糟糕了。如您所见,有许多唯一大于 doc_count 的桶。
请求格式有问题吗?或基数限制?

索引了 50 万个文档
并且有15种类型的eventID
ES 1.4 使用。

请求

{
"size": 0,
"_source": false,
"aggs": {
"eventIds": {
"terms": {
"field": "_EventID_",
"size": 0
},
"aggs": {
"unique": {
"cardinality": {
"field": "UUID"
}
}
}
}
}

响应

{
"took": 383,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 550971,
"max_score": 0,
"hits": [

]
},
"aggregations": {
"eventIds": {
"doc_count_error_upper_bound": 0,
"sum_other_doc_count": 0,
"buckets": [
{
"key": "red",
"doc_count": 165110,
"unique": {
"value": 27423
}
},
{
"key": "blue",
"doc_count": 108376,
"unique": {
"value": 94775
}
},
{
"key": "yellow",
"doc_count": 78919,
"unique": {
"value": 70094
}
},
{
"key": "green",
"doc_count": 60580,
"unique": {
"value": 78945
}
},
{
"key": "black",
"doc_count": 49923,
"unique": {
"value": 56200
}
},
{
"key": "white",
"doc_count": 38744,
"unique": {
"value": 45229
}
},

编辑。更多测试

我再次尝试使用仅过滤一个 eventId 的 1,000 precision_threshold
但结果的错误是一样的。基数预计少于 30,000,但超过 66,000(这大于文档总大小)

doc_count : 65,672(没问题。对)基数:66,037(大于 doc_count)实际基数:大约 23,000(由 rdbms 脚本计算...)

请求

{
"size": 0,
"_source": false,
"query": {
"term": {
"_EventID_": "packdownload"
}
},
"aggs": {
"unique": {
"cardinality": {
"field": "UUID",
"precision_threshold": 10000
}
}
}

响应

{
"took": 28,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 65672,
"max_score": 0,
"hits": []
},
"aggregations": {
"unique": {
"value": 66037
}
}

最佳答案

精度阈值的最高值为 40,000。这应该会稍微改善结果,但是由于不同值的数量很大,可能会有 20% 加减的误差。它甚至会发生在较小的值上。

关于elasticsearch - elasticsearch aggs 中的非重复计数大于 doc_count,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27170251/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com