- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我有一个包含超过 2 亿个文档的集合,其中包含维度(我想过滤或分组的内容)和指标(我想求和或获取平均值的内容)。我目前遇到了一些性能问题,我希望获得一些关于如何优化/扩展 MongoDB 的建议或关于替代解决方案的建议。我正在使用 WiredTiger 运行最新的稳定版 MongoDB。这些文件基本上如下所示:
{
"dimensions": {
"account_id": ObjectId("590889944befcf34204dbef2"),
"url": "https://test.com",
"date": ISODate("2018-03-04T23:00:00.000+0000")
},
"metrics": {
"cost": 155,
"likes": 200
}
}
我在这个集合上有三个索引,因为在这个集合上运行了各种聚合:
以下聚合查询获取 3 个月的数据,汇总成本和喜欢并按周/年分组:
db.large_collection.aggregate(
[
{
$match: { "dimensions.date": { $gte: new Date(1512082800000), $lte: new Date(1522447200000) } }
},
{
$match: { "dimensions.account_id": { $in: [ "590889944befcf34204dbefc", "590889944befcf34204dbf1f", "590889944befcf34204dbf21" ] }}
},
{
$group: {
cost: { $sum: "$metrics.cost" },
likes: { $sum: "$metrics.likes" },
_id: {
year: { $year: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } },
week: { $isoWeek: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } }
}
}
},
{
$project: {
cost: 1,
likes: 1
}
}
],
{
cursor: {
batchSize: 50
},
allowDiskUse: true
}
);
此查询大约需要 25-30 秒才能完成,我希望将其减少到至少 5-10 秒。它目前是单个 MongoDB 节点,没有分片或任何东西。解释查询可以在这里找到:https://pastebin.com/raw/fNnPrZh0和 executionStats:https://pastebin.com/raw/WA7BNpgA如您所见,MongoDB 正在使用索引,但仍有 130 万个文档需要读取。我目前怀疑我遇到了一些 I/O 瓶颈。
有谁知道我可以如何改进这个聚合管道?分片会有帮助吗? MonogDB 是合适的工具吗?
最佳答案
当且仅当如果每条记录中的预计算维度是一个选项,则以下内容可以提高性能。
如果这种类型的查询代表了对这个集合的查询的重要部分,那么包括额外的字段来加快这些查询可能是一个可行的替代方案。
这还没有进行基准测试。
此查询中成本较高的部分之一可能来自处理日期。
首先在 $group
阶段为每个匹配记录计算与特定时区关联的年份和等周。
然后,在较小程度上,在初始过滤期间,保留最近 3 个月的日期。
想法是在每条记录中存储年份和等周数,对于给定的示例,这将是 { "year": 2018, "week": 10 }
。这样,$group
阶段中的 _id
键就不需要任何计算(否则将代表 1M3 复杂的日期操作)。
以类似的方式,我们还可以在每个记录中存储关联的月份,对于给定的示例,这将是 { "month": "201803"}
。这样,在对确切时间戳应用更精确和成本更高的过滤之前,第一个匹配项可能在月 [2, 3, 4, 5]
上。这会将对 200M 记录的初始成本较高的 Date
过滤节省为简单的 Int
过滤。
让我们用这些新的预计算字段创建一个新集合(在真实场景中,这些字段将包含在记录的初始 insert
期间):
db.large_collection.aggregate([
{ $addFields: {
"prec.year": { $year: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } },
"prec.week": { $isoWeek: { date: "$dimensions.date", timezone: "Europe/Amsterdam" } },
"prec.month": { $dateToString: { format: "%Y%m", date: "$dimensions.date", timezone: "Europe/Amsterdam" } }
}},
{ "$out": "large_collection_precomputed" }
])
将存储这些文档:
{
"dimensions" : { "account_id" : ObjectId("590889944befcf34204dbef2"), "url" : "https://test.com", "date" : ISODate("2018-03-04T23:00:00Z") },
"metrics" : { "cost" : 155, "likes" : 200 },
"prec" : { "year" : 2018, "week" : 10, "month" : "201803" }
}
然后让我们查询:
db.large_collection_precomputed.aggregate([
// Initial gross filtering of dates (months) (on 200M documents):
{ $match: { "prec.month": { $gte: "201802", $lte: "201805" } } },
{ $match: {
"dimensions.account_id": { $in: [
ObjectId("590889944befcf34204dbf1f"), ObjectId("590889944befcf34204dbef2")
]}
}},
// Exact filtering of dates (costlier, but only on ~1M5 documents).
{ $match: { "dimensions.date": { $gte: new Date(1512082800000), $lte: new Date(1522447200000) } } },
{ $group: {
// The _id is now extremly fast to retrieve:
_id: { year: "$prec.year", "week": "$prec.week" },
cost: { $sum: "$metrics.cost" },
likes: { $sum: "$metrics.likes" }
}},
...
])
在这种情况下,我们将在 account_id
和 month
上使用索引。
注意:在这里,月份存储为 String
("201803"
),因为我不确定如何将它们转换为 Int
在聚合查询中。但最好是在插入记录时将它们存储为 Int
作为副作用,这显然会使集合的存储磁盘/内存更重。
关于mongodb - 大量集合的聚合管道缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49409559/
我有一个 Cassandra 集群,里面有 4 个表和数据。 我想使用聚合函数(sum,max ...)发出请求,但我在这里读到这是不可能的: http://www.datastax.com/docu
我有以下两张表 Table: items ID | TITLE 249 | One 250 | Two 251 | Three 我投票给这些: Table: votes VID | IID | u
这个问题在这里已经有了答案: Update MongoDB field using value of another field (12 个答案) 关闭 3 年前。 我想根据另一个“源”集合的文档中
我的收藏包含以下文件。我想使用聚合来计算里面有多少客户,但我遇到了一些问题。我可以获得总行数,但不能获得总(唯一)客户。 [{ _id: "n001", channel: "Kalip
我有下表 Id Letter 1001 A 1001 H 1001 H 1001 H 1001 B 1001 H 1001 H 1001
得到一列的表 ABC。 “创建”的日期列。所以样本值就像; created 2009-06-18 13:56:00 2009-06-18 12:56:00 2009-06-17 14:02:0
我有一个带有数组字段的集合: {[ name:String buyPrice:Int sellPrice:Int ]} 我试图找到最低和最高买入/卖出价格。在某些条目中,买入或卖出价格为零
我有以下问题: 在我的 mongo db 中,我有以下结构: { "instanceId": "12", "eventId": "0-1b", "activityType":
下面给出的是我要在其上触发聚合查询的 Elasticsearch 文档。 { "id": 1, "attributes": [ { "fieldId": 1,
我正在使用 Django 的 aggregate query expression总计一些值。最终值是一个除法表达式,有时可能以零作为分母。如果是这种情况,我需要一种方法来逃避,以便它只返回 0。 我
我正在学习核心数据,特别是聚合。 当前我想要做的事情:计算表中在某些条件上具有逆关系的多对关系的记录数。 目前我正在这样做: NSExpression *ex = [NSExpression expr
我需要有关 Delphi 中的 ClientDatasets 的一些帮助。 我想要实现的是一个显示客户的网格,其中一列显示每个客户的订单数量。我将 ClientDataset 放在表单上并从 Delp
我的集合有 10M 个文档,并且有一个名为 movieId 的字段;该文档具有以下结构: { "_id" : ObjectId("589bed43e3d78e89bfd9b779"), "us
这个问题已经有答案了: What is the difference between association, aggregation and composition? (21 个回答) 已关闭 9
我在 elasticsearch 中有一些类似于这些示例的文档: { "id": ">", "list": [ "a", "b", "c" ] } { "id"
我正在做一些聚合。但是结果完全不是我所期望的,似乎它们没有聚合索引中与我的查询匹配的所有文档,在这种情况下 - 它有什么好处? 例如,首先我做这个查询: {"index":"datalayer","t
假设我在 ES 中有这些数据。 | KEY | value | |:-----------|------------:| | A |
可能在我的文档中,我有一个被分析的文本字段。我只是在ElasticSearch AggregationAPI中迷路了。我需要2种不同情况的支持: 情况A)结果是带有计数标记(条款)的篮子下降。 情况B
我正在为网上商店构建多面过滤功能,如下所示: Filter on Brand: [ ] LG (10) [ ] Apple (5) [ ] HTC (3) Filter on OS: [ ] Andr
我有一个父/子关系并且正在搜索 child 。 是否可以在父属性上创建聚合? 例如parent 是 POST,children 是 COMMENT。如果父项具有“类别”属性,是否可以搜索 COMMEN
我是一名优秀的程序员,十分优秀!