MongoDB 聚合性能-6ren

MongoDB 聚合性能

转载作者：IT老高更新时间：2023-10-28 13:06:57

25

4

我们遇到了长时间运行(几分钟)聚合查询的问题。

收藏:

我们收集了 2.5 亿个文档，每个文档大约有 20 个字段，集合的总大小为 110GB。

我们对“our_id”和 dtKey 字段有索引。

硬件:

内存:

24GB RAM(6 * 4GB DIMM 1333 Mhz)

磁盘:

Lvm 11TB 由 4 个 3TB 磁盘构建而成:

最大瞬时数据传输速度为 600MB/s。
7200 RPM 主轴。平均延迟 = 4.16ms
RAID 0

CPU:

2* E5-2420 0 @ 1.90GHz总共 12 个内核，24 个线程。戴尔 R420。

问题:我们正在尝试对以下内容进行聚合查询:

db.our_collection.aggregate(
    [
        {
            "$match":
            {
                "$and":
                    [
                        {"dtKey":{"$gte":20140916}},
                        {"dtKey":{"$lt":20141217}},
                        {"our_id":"111111111"}
                    ]
            }
        },
        {
            "$project":
            {
                "field1":1,
                "date":1
            }
        },
        {
            "$group":
            {
                "_id":
                {
                    "day":{"$dayOfYear":"$date"},
                    "year":{"$year":"$date"}
                },
                "field1":{"$sum":"$field1"}
            }
        }
    ]
);

这个查询需要几分钟才能运行，当它运行时我们可以看到以下内容:

Mongo 当前操作产生超过 30 万次
在 iostat 上，我们看到 ~100% 的磁盘利用率

这个查询完成后，它似乎在缓存中，可以在瞬间再次完成，

在为 3 – 4 个用户运行后，第一个似乎已经从缓存中换出，查询又需要很长时间。

我们测试了匹配部分的计数，发现我们有 50K 文档的用户以及 500K 文档的用户，

我们试图只得到匹配的部分:

db.pub_stats.aggregate(
    [
        {
            "$match":
            {
                "$and":
                    [
                        {"dtKey":{"$gte":20140916}},
                        {"dtKey":{"$lt":20141217}},
                        {" our_id ":"112162107"}
                    ]
            }
        }
    ]
);

而且查询似乎占用了大约 300-500M 的内存，

但运行完整查询后，似乎占用了 3.5G 内存。

问题:

为什么聚合的流水线需要这么多内存？
我们如何提高性能以使其在 HTTP 请求的合理时间内运行？

最佳答案

Why the pipelining of the aggregation takes so much memory?

只需执行 $match 就不必读取实际数据，它可以在索引上完成。通过 field1 的投影访问，实际的文档必须被读取，并且它可能也会被缓存。

另外，分组 can be expensive .通常情况下，如果你的分组阶段需要超过 100M 的内存，它应该会报错 - 你使用的是什么版本？它需要在产生之前扫描整个结果集，而 MongoDB 至少必须存储组中每个元素的指针或索引。我猜内存增加的关键原因是前者。

How can we increase our performance for it to run on a reasonable time for HTTP request?

您的 dtKey 似乎对时间进行了编码，并且分组也是根据时间完成的。我会尝试利用这一事实 - 例如，通过预先计算每天的聚合和 our_id 组合 - 如果没有更多标准并且数据不再发生太大变化，则很有意义。

否则，我会尝试将 {"our_id":"111111111"} 标准移动到第一个位置，因为相等性应该始终在范围查询之前。我猜聚合框架的查询优化器足够聪明，但值得一试。此外，您可能想尝试将您的两个索引变成一个复合索引 { our_id, dtkey }。现在支持索引交集，但我不确定它的效率有多高，真的。使用内置配置文件和 .explain() 分析您的查询。

最后，MongoDB 专为大量写入使用而设计，在几毫秒内从磁盘扫描数百 GB 的数据集在计算上根本不可行。如果您的数据集大于您的 RAM，您将面临数十毫秒甚至更高、数万或数十万次的大规模 IO 延迟，因为所有必需的磁盘操作。请记住，使用随机访问，您将永远无法接近理论上的顺序磁盘传输速率。如果你不能预先计算，我想你需要更多的内存。也许 SSD 会有所帮助，但这只是猜测。

关于MongoDB 聚合性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27544323/

25

4

0

文章推荐： go - 如何附加到 slice 指针接收器

文章推荐： android - 我无法安装英特尔 HAXM

文章推荐： go - 我可以在 Golang 中创建一个类型的别名吗？

文章推荐： android - 如何使用 adb 命令在没有 sd 卡的设备上推送文件

mongodb - 使用 mongodb+srv 连接到部署为有状态集的 mongodb
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset，并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
mongodb - 如何使用 MongoDB Atlas 连接 MongoDB
我已经创建了 MongoDB Atlas 帐户，并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
mongodb - JsonLD+MongoDB : Store JsonLD in MongoDB
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息)，任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
mongodb - 服务 'MongoDB Server' (MongoDB) 启动失败
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息，有人可以帮忙吗？我试过提供的解决方案 here但没有帮助。最佳答案我建议执行以下操作: 按 Wi
mongodb - 如何使用 MongoDB 指南针删除 MongoDB 集合中选定的多条记录
我对 MongoDB 和 MongoDB Compass 非常陌生。我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。非常感谢，最佳答案您可以使用 Mo
mongodb - mongodb 和 mongodb-server 的区别
当我尝试在我的 Ubuntu 机器中安装 mongodb 时，apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
mongodb - 如何将 mongodb 客户端连接到本地 Meteor MongoDB
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例？最佳答案确保 Meteor 正在本地主机上运行。打开终端窗口并运行
mongodb - 频率表生成 - MongoDB
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
mongodb - mongodb mapreduce中的where条件
我如何在 mongos mapreduce 中指定一个条件，就像我们在 mongos group 函数中所做的那样。我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
mongodb - 从 mongodb shell 运行具有 mongodb 查询的脚本
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引，这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
mongodb - 比较嵌套数组中的对象 - mongoDB
在我的数据库中，每个包含项目的文档中都有一个嵌套的元素数组，格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
mongodb - MongoDB 上的时区查询
我正在构建一个应用程序，其中用户可以位于不同的时区，并且我运行的查询对他们的时区很敏感。我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
mongodb - 为什么当我添加新集合时只有一个分片获取数据？ - MongoDB
我正在研究使用 mongodb 进行分片，我有以下结构: 1 个 Mongod 到我的 ConfigServer，在 ReplicaSet 中只有 1 个成员 2 个分片，每个分片在 ReplicaS
mongodb - mongoDB 中是否可以使用循环对象引用？
我正在尝试获取一个 mongoDB 对象，例如 Friend1 包含另一个 mongoDB 对象 Friend2，该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。要么这样，要么
mongodb - 通过命令行正确卸载 MongoDB
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
mongodb - 无法通过终端使用身份验证数据连接 mongodb
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
mongodb - 当配置实例使用与数据实例相同的二进制文件时升级 Mongodb
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9，最终我想升级到 2.4.9，但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件，然后是
mongodb - 无法远程连接到 mongodb
目前，我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接，该 PC 也运行 vm。这是两台电脑的
mongodb - 如何从 mongodb compass 连接 mongodb 集群？
我创建了一个免费的 mongodb 集群。我创建了一个用户，设置了与 mongodb compass 的连接，复制了连接字符串，然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
mongodb - MongoDB 索引名称
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde

首页

博学

6Ren·AI

商城

MongoDB 聚合性能

收藏:

硬件:

CPU:

问题: