mongodb - Mongo $group 太慢了-6ren

mongodb - Mongo $group 太慢了

转载作者：可可西里更新时间：2023-11-01 09:06:24

我有一个包含大约 168,200,000 个文档的 mongo 数据库集合。我正在尝试使用 $group 获取某个字段的平均值，并且我在管道中的 $group 之前使用 $match 来使用 client.city 上的索引。但是查询大约需要 5 分钟才能运行，这非常慢。

这是我尝试过的:

db.ar12.aggregate(
    {$match:{'client.city':'New York'}},
    {'$group':{'_id':'client.city', 'avg':{'$avg':'$length'}}}
)

db.ar12.aggregate(
    {$match:{'client.city':'New York'}},
    {'$group':{'_id':null, 'avg':{'$avg':'$length'}}}
)

db.ar12.aggregate(
    {$match:{'client.city':'New York'}}, 
    {$project: {'length':1}},
    {'$group':{'_id':null, 'avg':{'$avg':'$length'}}}
)

所有 3 个查询花费的时间大致相同，client.city = to New York 的文档数量为 1,231,672，find({'client.city':'New York').count() 需要一秒钟才能运行

> db.version()
  3.2.0

编辑

这是解释结果...至于添加带长度的复合索引的评论，这会有帮助吗，虽然我不是按长度搜索我想要所有长度...

{
"waitedMS" : NumberLong(0),
"stages" : [
    {
        "$cursor" : {
            "query" : {
                "client.city" : "New York"
            },
            "fields" : {
                "length" : 1,
                "_id" : 1
            },
            "queryPlanner" : {
                "plannerVersion" : 1,
                "namespace" : "clients.ar12",
                "indexFilterSet" : false,
                "parsedQuery" : {
                    "client.city" : {
                        "$eq" : "New York"
                    }
                },
                "winningPlan" : {
                    "stage" : "FETCH",
                    "inputStage" : {
                        "stage" : "IXSCAN",
                        "keyPattern" : {
                            "client.city" : 1
                        },
                        "indexName" : "client.city_1",
                        "isMultiKey" : false,
                        "isUnique" : false,
                        "isSparse" : false,
                        "isPartial" : false,
                        "indexVersion" : 1,
                        "direction" : "forward",
                        "indexBounds" : {
                            "client.city" : [
                                "[\"New York\", \"New York\"]"
                            ]
                        }
                    }
                },
                "rejectedPlans" : [ ]
            }
        }
    },
    {
        "$project" : {
            "length" : true
        }
    },
    {
        "$group" : {
            "_id" : {
                "$const" : null
            },
            "total" : {
                "$avg" : "$length"
            }
        }
    }
],
"ok" : 1
}

编辑 2

我加了client.city和length的复合索引，还是不行，速度还是太慢，我试了这2个查询:

db.ar12.aggregate(
    {$match: {'client.city':'New York'}}, 
    {$project: {'client.city':1, 'length':1}},
    {'$group':{'_id':'$client.city', 'avg':{'$avg':'$length'}}}
)

上面的查询没有使用复合索引，所以我尝试强制使用它，但仍然没有任何改变:

db.ar12.aggregate(
    {$match: { $and : [{'client.city':'New York'}, {'length':{'$gt':0}}]}}, 
    {$project: {'client.city':1, 'length':1}},
    {'$group':{'_id':'$client.city', 'avg':{'$avg':'$length'}}}
)

下面是最后一个查询的解释:

{
"waitedMS" : NumberLong(0),
"stages" : [
    {
        "$cursor" : {
            "query" : {
                "$and" : [
                    {
                        "client.city" : "New York"
                    },
                    {
                        "length" : {
                            "$gt" : 0
                        }
                    }
                ]
            },
            "fields" : {
                "client.city" : 1,
                "length" : 1,
                "_id" : 1
            },
            "queryPlanner" : {
                "plannerVersion" : 1,
                "namespace" : "clients.ar12",
                "indexFilterSet" : false,
                "parsedQuery" : {
                    "$and" : [
                        {
                            "client.city" : {
                                "$eq" : "New York"
                            }
                        },
                        {
                            "length" : {
                                "$gt" : 0
                            }
                        }
                    ]
                },
                "winningPlan" : {
                    "stage" : "CACHED_PLAN",
                    "inputStage" : {
                        "stage" : "FETCH",
                        "inputStage" : {
                            "stage" : "IXSCAN",
                            "keyPattern" : {
                                "client.city" : 1,
                                "length" : 1
                            },
                            "indexName" : "client.city_1_length_1",
                            "isMultiKey" : false,
                            "isUnique" : false,
                            "isSparse" : false,
                            "isPartial" : false,
                            "indexVersion" : 1,
                            "direction" : "forward",
                            "indexBounds" : {
                                "client.city" : [
                                    "[\"New York\", \"New York\"]"
                                ],
                                "length" : [
                                    "(0.0, inf.0]"
                                ]
                            }
                        }
                    }
                },
                "rejectedPlans" : [ ]
            }
        }
    },
    {
        "$project" : {
            "client" : {
                "city" : true
            },
            "length" : true
        }
    },
    {
        "$group" : {
            "_id" : "$client.city",
            "avg" : {
                "$avg" : "$length"
            }
        }
    }
],
"ok" : 1
}

最佳答案

我找到了解决方法，长度从 1 到 70。所以我在 python 中从 1 迭代到 70，找到每个城市的每个长度的计数，

db.ar12.find({'client.city':'New York', 'length':i}).count()

速度非常快，然后用python计算平均值，运行大约需要2秒。

这不是最好的解决方案，因为我还有其他查询要运行，我不知道我是否可以找到解决所有这些问题的方法...

关于mongodb - Mongo $group 太慢了，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34797416/

文章推荐： c# - Log4net - 禁止将 "exception"附加到自定义 "PatternLayout"

文章推荐： android - 在 imageview 中显示来自 intent 的 jpg 图像

文章推荐： android - 如何为包含 ScrollView 的布局添加触摸事件

php - Mongo 中的 Map Reduce，将 mongo 查询转换为 php mongo
我在 mongo 中有一个查询，看起来像 db.Table_Name.group({ "key": { "Camp": true }, "initial": { "Clicks": 0 }
mongodb - Mongo 查询在 mongo shell 中有效，但在 bash mongo --eval 中无效？
这是一个示例查询: db.readings.find( {"_id.s": ISODate("2012-11-01T00:05:00Z") }).count() 查询在 mongo shell 中工作
mongodb - Mongo 聚合映射和查询以使用 Mongo 模板获取特定年份的选择性记录
我正在使用 mongo 模板查询基于状态和邮政编码的文档，这是使用以下标准和查询方法实现的: List modelClass = null; Criteria criteria = new Crite
mongodb - 将旧版本 mongo 的数据库转储恢复到新版本 mongo
目前，我有一个旧版本的 mongo，即 2.6 在我的系统上运行。我的网站已经投入生产，并且拥有大量客户数据。我正在计划升级到 mongo 3.2。所以，我的问题是 mongo v3.2 的 mon
mongodb - Mongo 聚合可以做什么/Mongo 聚合的性能
我构建了一个 MongoDB。我想通过某些分组进行聚合。我找到了 document ，这将为我做到这一点。一切正常，但确定limitations指出: 管道的输出只能包含 16 兆字节。如果你的结果s
linux - Errr 'mongo.js:L112 Error: couldn' t 连接到服务器 127.0.0.1 :27017 at src/mongo/shell/mongo. js:L112'
我无法连接到 MongoDB .在 Ubuntu 中它可以工作，但我在 CentOS 工作现在。这是错误信息: MongoDB shell version: 2.4.2 connecting to:
mongodb - Mongo-Express:首次连接时无法连接到服务器[mongo:27017]
我试图使用mongo运行最简单的mongo-express和docker-compose容器。我遇到了许多错误，这些错误将在以后解释。我尝试了以下docker-compose配置: 1。 versi
Java + Mongo +Morphia - 在 mongo 数组中查找正则表达式
我有一个 mongo 查询，如下所示。 db.Course.find( { $and: [{courseCallNo: {$in : [/^ssoapicall1$/i]} }, {clientId
PHP Mongo:注意:Mongo::__construct(): 解析服务器
我想知道为什么我会收到以下 php 通知: ( ! ) Notice: Mongo::__construct(): parsing servers in C:\htdocs\multishop\lib
mongodb - 查找 mongo 文档同时忽略重复值 mongo 端
(问题灵感来自this one) 给定一个数据集: db.mycollection.insert([ {a:1, b:2, c:3}, {a:1, b:3, c:4}, {a:0, b:1
php5-mongo 和 pecl mongo-stable
如果我已经使用 PECL 成功安装了 mongoDB，还需要获取 debian 软件包“php5-mongo”吗？有什么不同？(这个问题应该迁移吗？) 最佳答案区别与从 CPAN 或 debian(
mongodb - 当我在终端中调用 "mongo"时 Mongo 崩溃
Mongo 一天前还运行良好。然后今天早上我起床并尝试打开我得到这个: MongoDB shell version: 2.6.4 2015-01-06T11:10:54.142-0500 SE
c# - 使用 Mongo 驱动程序将文件上传到 Mongo Atlas
我正在尝试使用 C# Mongo 驱动程序将文件上传到 Mongo Atlas。但我不明白如何连接类 MongoServerSettings。我试过这个: private static MongoSe
mongodb - 如何使用 mongos 命令运行 mongo shell？
我有两个版本的 mongodb，2.4.3 和 2.6.0。我可以在不同的端口上启动这两个版本，但是在使用 ./mongos 运行它时出现错误: BadValue error: no args for
mongodb - 在不关闭现有 mongo 实例的情况下进行 Mongo 分片
我需要在不关闭的情况下进行分片，或者在端口 27017 中重启现有的 mongo 实例。我尝试了以下操作，(当默认端口正在运行和 mongo 实例时) mongod --shardsvr --d
mongodb - 在意外的 mongo 版本升级后升级旧的 mongo 数据库
在无意中升级了 mongodb 包(3.4.9 -> 3.6.1)后，有没有办法升级 mongo 数据库？根据 mongo 文档，作为 prerequisite在升级过程中，featureCompa
mongodb - 如何使用最少的配置在 mongo 容器中创建经过身份验证的 mongo 数据库
我正在使用 Sails 0.12.3 和 mongo 3.2.7 这是我的 config/connections.js。 mongo: { adapter: 'sails-mongo', host
php - 将 mongo 查询转换为 php mongo
我正在使用 mongodb 构建一个基本的搜索引擎，我已经验证了基本查询在 mongo shell 中的工作。不过，我不太明白如何将其翻译成 PHP。输入字符串中的空格表示“和”运算符和 |或管道字
spring-mongo - Spring Mongo 从 json 字符串转换为文档
我有一个用 @Document 注释的 Mongo 集合，我希望能够从字符串 (JSON) 中获取该 Java 对象，因为我们正在将这些类作为字符串插入队列。 Spring-Data-Mongo 中是
mongodb - 调用 mongo 存储库的保存方法时未调用 Mongo Date 自定义转换器
我正在使用 Linux Debian 9。我已经安装了 JDK 1.8。我使用的maven版本是3.6，springboot的版本是2.1。 mongodb版本是3.6。下面是我试图保存在 mong

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

mongodb - Mongo $group 太慢了