- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
我们遇到了长时间运行(几分钟)聚合查询的问题。
我们收集了 2.5 亿个文档,每个文档大约有 20 个字段,集合的总大小为 110GB。
我们对“our_id”和 dtKey 字段有索引。
24GB RAM(6 * 4GB DIMM 1333 Mhz)
磁盘:Lvm 11TB 由 4 个 3TB 磁盘构建而成:
最大瞬时数据传输速度为 600MB/s。
7200 RPM 主轴。平均延迟 = 4.16ms
RAID 0
2* E5-2420 0 @ 1.90GHz总共 12 个内核,24 个线程。戴尔 R420。
问题:我们正在尝试对以下内容进行聚合查询:
db.our_collection.aggregate(
[
{
"$match":
{
"$and":
[
{"dtKey":{"$gte":20140916}},
{"dtKey":{"$lt":20141217}},
{"our_id":"111111111"}
]
}
},
{
"$project":
{
"field1":1,
"date":1
}
},
{
"$group":
{
"_id":
{
"day":{"$dayOfYear":"$date"},
"year":{"$year":"$date"}
},
"field1":{"$sum":"$field1"}
}
}
]
);
这个查询需要几分钟才能运行,当它运行时我们可以看到以下内容:
这个查询完成后,它似乎在缓存中,可以在瞬间再次完成,
在为 3 – 4 个用户运行后,第一个似乎已经从缓存中换出,查询又需要很长时间。
我们测试了匹配部分的计数,发现我们有 50K 文档的用户以及 500K 文档的用户,
我们试图只得到匹配的部分:
db.pub_stats.aggregate(
[
{
"$match":
{
"$and":
[
{"dtKey":{"$gte":20140916}},
{"dtKey":{"$lt":20141217}},
{" our_id ":"112162107"}
]
}
}
]
);
而且查询似乎占用了大约 300-500M 的内存,
但运行完整查询后,似乎占用了 3.5G 内存。
最佳答案
- Why the pipelining of the aggregation takes so much memory?
只需执行 $match
就不必读取实际数据,它可以在索引上完成。通过 field1
的投影访问,实际的文档必须被读取,并且它可能也会被缓存。
另外,分组 can be expensive .通常情况下,如果你的分组阶段需要超过 100M 的内存,它应该会报错 - 你使用的是什么版本?它需要在产生之前扫描整个结果集,而 MongoDB 至少必须存储组中每个元素的指针或索引。我猜内存增加的关键原因是前者。
- How can we increase our performance for it to run on a reasonable time for HTTP request?
您的 dtKey
似乎对时间进行了编码,并且分组也是根据时间完成的。我会尝试利用这一事实 - 例如,通过预先计算每天的聚合和 our_id
组合 - 如果没有更多标准并且数据不再发生太大变化,则很有意义。
否则,我会尝试将 {"our_id":"111111111"}
标准移动到第一个位置,因为相等性应该始终在范围查询之前。我猜聚合框架的查询优化器足够聪明,但值得一试。此外,您可能想尝试将您的两个索引变成一个复合索引 { our_id, dtkey }
。现在支持索引交集,但我不确定它的效率有多高,真的。使用内置配置文件和 .explain()
分析您的查询。
最后,MongoDB 专为大量写入使用而设计,在几毫秒内从磁盘扫描数百 GB 的数据集在计算上根本不可行。如果您的数据集大于您的 RAM,您将面临数十毫秒甚至更高、数万或数十万次的大规模 IO 延迟,因为所有必需的磁盘操作。请记住,使用随机访问,您将永远无法接近理论上的顺序磁盘传输速率。如果你不能预先计算,我想你需要更多的内存。也许 SSD 会有所帮助,但这只是猜测。
关于MongoDB 聚合性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27544323/
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset,并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
我已经创建了 MongoDB Atlas 帐户,并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息),任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息,有人可以帮忙吗? 我试过提供的解决方案 here但没有帮助。 最佳答案 我建议执行以下操作: 按 Wi
我对 MongoDB 和 MongoDB Compass 非常陌生。 我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。 非常感谢, 最佳答案 您可以使用 Mo
当我尝试在我的 Ubuntu 机器中安装 mongodb 时,apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例? 最佳答案 确保 Meteor 正在本地主机上运行。打开终端窗口并运行
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
我如何在 mongos mapreduce 中指定一个条件,就像我们在 mongos group 函数中所做的那样。 我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引,这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
在我的数据库中,每个包含项目的文档中都有一个嵌套的元素数组,格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
我正在构建一个应用程序,其中用户可以位于不同的时区,并且我运行的查询对他们的时区很敏感。 我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
我正在研究使用 mongodb 进行分片,我有以下结构: 1 个 Mongod 到我的 ConfigServer,在 ReplicaSet 中只有 1 个成员 2 个分片,每个分片在 ReplicaS
我正在尝试获取一个 mongoDB 对象,例如 Friend1 包含另一个 mongoDB 对象 Friend2,该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。 要么这样,要么
关闭。这个问题是off-topic .它目前不接受答案。 想改进这个问题? Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。 我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9,最终我想升级到 2.4.9,但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件,然后是
目前,我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接,该 PC 也运行 vm。 这是两台电脑的
我创建了一个免费的 mongodb 集群。我创建了一个用户,设置了与 mongodb compass 的连接,复制了连接字符串,然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde
我是一名优秀的程序员,十分优秀!