elasticsearch - elasticsearch aggs 中的非重复计数大于 doc_count

转载作者：行者123 更新时间：2023-11-29 02:57:09

25

4

我写了一些聚合查询来获取总数(总和)和唯一计数。但结果有点困惑。

唯一值大于 doc_count。
是否可以？

我知道 cardinality aggs 是实验性的，可以获得不同值的近似计数。
http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-aggregations-metrics-cardinality-aggregation.html

但是这个结果太糟糕了。如您所见，有许多唯一大于 doc_count 的桶。
请求格式有问题吗？或基数限制？

索引了 50 万个文档
并且有15种类型的eventID
ES 1.4 使用。

请求

{
"size": 0,
"_source": false,
"aggs": {
    "eventIds": {
        "terms": {
            "field": "_EventID_",
            "size": 0
        },
        "aggs": {
            "unique": {
                "cardinality": {
                    "field": "UUID"
                }
            }
        }
    }
}

响应

{
"took": 383,
"timed_out": false,
"_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
},
"hits": {
    "total": 550971,
    "max_score": 0,
    "hits": [

    ]
},
"aggregations": {
    "eventIds": {
        "doc_count_error_upper_bound": 0,
        "sum_other_doc_count": 0,
        "buckets": [
            {
                "key": "red",
                "doc_count": 165110,
                "unique": {
                    "value": 27423
                }
            },
            {
                "key": "blue",
                "doc_count": 108376,
                "unique": {
                    "value": 94775
                }
            },
            {
                "key": "yellow",
                "doc_count": 78919,
                "unique": {
                    "value": 70094
                }
            },
            {
                "key": "green",
                "doc_count": 60580,
                "unique": {
                    "value": 78945
                }
            },
            {
                "key": "black",
                "doc_count": 49923,
                "unique": {
                    "value": 56200
                }
            },
            {
                "key": "white",
                "doc_count": 38744,
                "unique": {
                    "value": 45229
                }
            },

编辑。更多测试

我再次尝试使用仅过滤一个 eventId 的 1,000 precision_threshold
但结果的错误是一样的。基数预计少于 30,000，但超过 66,000(这大于文档总大小)

doc_count : 65,672(没问题。对)基数:66,037(大于 doc_count)实际基数:大约 23,000(由 rdbms 脚本计算...)

请求

{
"size": 0,
"_source": false,
"query": {
    "term": {
        "_EventID_": "packdownload"
    }
},
"aggs": {
    "unique": {
        "cardinality": {
            "field": "UUID",
            "precision_threshold": 10000
        }
    }
}

响应

{
"took": 28,
"timed_out": false,
"_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
},
"hits": {
    "total": 65672,
    "max_score": 0,
    "hits": []
},
"aggregations": {
    "unique": {
        "value": 66037
    }
}

最佳答案

精度阈值的最高值为 40,000。这应该会稍微改善结果，但是由于不同值的数量很大，可能会有 20% 加减的误差。它甚至会发生在较小的值上。

关于elasticsearch - elasticsearch aggs 中的非重复计数大于 doc_count，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27170251/

25

4

0

文章推荐： MySQL:如何改进这个 UNION？

文章推荐： mysql - 通过多字段索引查询性能排序 yield

文章推荐： mysql - 查询对两个表求和

文章推荐： elasticsearch - 聚合术语使用计数

elasticsearch - “filter and aggs”和 “filter in aggs”有什么区别
我有两种方法来汇总数据。首先，我过滤mysql数据并进行汇总其次，i aggs将数据过滤为aggs。如下: 我发现了不同的结果，我不知道为什么。有人可以解释吗？最佳答案从Docs By d
python pandas, DF.groupby().agg(), agg() 中的列引用
在一个具体问题上，假设我有一个 DataFrame DF word tag count 0 a S 30 1 the S 20 2 a T
pandas groupby agg function column/dtype error(PANDA GROUPAS BY AGG Function列/dtype错误)
我正在使用Python进行数据分析，但我遇到了部分CH的问题。9(数据聚合和分组操作)部分，介绍“使用函数分组”。。具体地说，如果我使用GroupBy对象方法或Numpy定义的函数，一切都会正常工作。
python - df.groupby(...).agg(set) 与 df.groupby(...).agg(lambda x : set(x)) 相比产生不同的结果
接听this question原来 df.groupby(...).agg(set) 和 df.groupby(...).agg(lambda x: set(x)) 正在产生不同的结果。数据: df
python - 字符串系列的最大 agg
如何在这样的字符串列中执行最大值？ dataframe = pandas.DataFrame.from_dict( { "DEP
elasticsearch - “aggs”查询的输出结果不正确
我有一个查询，用于查询给定日期时间窗口(即2017-02-17T15:00:00.000和2017-02-17T16:00:00.000之间)中的条目数。执行此查询时，我得到的结果不正确(最好说结果是
elasticsearch aggs 返回错误的计数
我正在尝试进行一些聚合查询并遇到一些问题。 GET /my_index/_search { "size" : 0, "aggs":{ "group_by":{ "terms": {
python - Pandas agg 根据数据类型定义指标
对于pandas agg，有没有办法根据数据类型指定聚合函数？例如，对象类型的所有列都获得“第一”，所有 float 获得“平均值”，等等？以避免必须输入所有列及其各自的聚合函数。示例数据: imp
scala - Spark agg 为多列收集单个列表
这是我当前的代码: pipe_exec_df_final_grouped = pipe_exec_df_final.groupBy("application_id").agg(collect_list
Python - Pandas groupby agg
我有一个简单的 dataframe (df)，如下所示: index Job Person 1 j1 Cathy 2 j2 Mark 3 j3 Cathy 4
elasticsearch - Elasticsearch-术语中的buckets_path agg
我正在尝试对术语(count_bucket)进行AVG计数，但是出现错误: "buckets_path must reference either a number value or a single
elasticsearch - 响应中未保留的 agg 名称的排序
我正在执行弹性查询并使用 REST 调用读取 java 代码中的响应。当我阅读响应时，字段的顺序 - 200、204、4xx、5xx 不会按照响应中的顺序返回。在下面找到示例请求 GET appl
ElasticSearch Max Agg 在文档的列表属性中的最低值
我希望对文档下的属性值进行 Max 聚合，该属性是复杂对象(键和值)的列表。这是我的数据: [{ "id" : "1", "listItems" : [
elasticsearch 使用 aggs 过滤数组数据
我使用 Elasticsearch 来存储我的生物数据。我尝试使用过滤后的 aggs 进行查询，但返回的数据不是我想要的。问题来自这样一个事实，即我为每个样本都有一个“d_”属性，它是一个数组。我
elasticsearch - 如何使用过滤器查询优化 Elasticsearch aggs
当我尝试运行此查询时，elasticsearch无法回答，并且发生大量缓存逐出(与字段缓存有关)。我不想在此查询中缓存任何字段，因为这是一个分析查询，我每天只运行一次。有什么办法可以在不使用字段缓存
python - DataFrame agg 作为一个系列
我想将 DataFrame.agg 的输出转换为一个系列，其中索引是列名称和 agg 函数名称的组合。看我有 In [132]: df = pd.DataFrame({ ...:
python - 如何将 agg 应用于具有根据级别不同功能的多索引的数据框？
我想根据索引的第二级对具有多重索引的数据帧应用不同的函数。例如，对于数据框: In [4]: df = pd.DataFrame({'a': [1,2,6,7],'b': [7,1,4,5]}, i
python - Pandas .agg 函数有哪些？
假设我有这样的代码: meanData = all_data.groupby(['Id'])[features].agg('mean') 这按'Id' 值对数据进行分组，选择所需的特征，并通过计算的'
python - groupby.agg 中的本福德定律测试函数
下面是我的数据框的一个小样本，它有 25000 奇数行长: In [58]: df Out[58]: Send_Agent Send_Amount 0 ADR000264 361
python - 在 agg 函数中聚合具有一个属性的多列
假设我有一个 pandas dataFrame (data_stores) 类似于以下内容: store| item1 | item2 | item3 ------------------------

首页

博学

6Ren·AI

商城

elasticsearch - elasticsearch aggs 中的非重复计数大于 doc_count

编辑。更多测试