MongoDB : Aggregation framework : Get last dated document per grouping ID-6ren

MongoDB : Aggregation framework : Get last dated document per grouping ID

转载作者：行者123 更新时间：2023-12-02 02:12:55

25

4

我想获取所有其他字段的每个站的最后一个文档:

{
        "_id" : ObjectId("535f5d074f075c37fff4cc74"),
        "station" : "OR",
        "t" : 86,
        "dt" : ISODate("2014-04-29T08:02:57.165Z")
}
{
        "_id" : ObjectId("535f5d114f075c37fff4cc75"),
        "station" : "OR",
        "t" : 82,
        "dt" : ISODate("2014-04-29T08:02:57.165Z")
}
{
        "_id" : ObjectId("535f5d364f075c37fff4cc76"),
        "station" : "WA",
        "t" : 79,
        "dt" : ISODate("2014-04-29T08:02:57.165Z")
}

我需要有 t 和 station 以获得每个站的最新 dt。
使用聚合框架:

db.temperature.aggregate([{$sort:{"dt":1}},{$group:{"_id":"$station", result:{$last:"$dt"}, t:{$last:"$t"}}}])

返回

{
        "result" : [
                {
                        "_id" : "WA",
                        "result" : ISODate("2014-04-29T08:02:57.165Z"),
                        "t" : 79
                },
                {
                        "_id" : "OR",
                        "result" : ISODate("2014-04-29T08:02:57.165Z"),
                        "t" : 82
                }
        ],
        "ok" : 1
}

这是最有效的方法吗？

谢谢

最佳答案

直接回答您的问题，是的，这是最有效的方法。但我确实认为我们需要澄清为什么会这样。

正如替代方案中所建议的那样，人们正在关注的一件事是在传递给 之前对您的结果进行“排序”。 $group stage 和他们正在查看的是“timestamp”值，因此您需要确保所有内容都按“timestamp”顺序排列，因此形式如下:

db.temperature.aggregate([
    { "$sort": { "station": 1, "dt": -1 } },
    { "$group": {
        "_id": "$station", 
        "result": { "$first":"$dt"}, "t": {"$first":"$t"} 
    }}
])

如前所述，您当然需要一个索引来反射(reflect)这一点，以提高排序效率:

然而，这才是真正的重点。其他人似乎忽略了(如果您自己不是这样)是所有这些数据都可能被插入已经按时间顺序，因为每个读数都被记录为添加的。

所以这个美丽的是 _id字段(默认为 ObjectId )已经按“时间戳”顺序排列，因为它本身实际上包含一个时间值，这使得语句成为可能:

db.temperature.aggregate([
    { "$group": {
        "_id": "$station", 
        "result": { "$last":"$dt"}, "t": {"$last":"$t"} 
    }}
])

它是快点。为什么？好吧，您不需要选择索引(要调用的附加代码)，除了文档之外，您也不需要“加载”索引。

我们已经知道文件是有序的(按 _id )所以 $last 边界是完全有效的。无论如何，您都在扫描所有内容，您还可以在 _id 上“范围”查询值在两个日期之间同样有效。

这里唯一要说的是，在“现实世界”的用法中，对您来说可能更实用 $match 在进行这种累积而不是获取“第一个”和“最后一个”时的日期范围之间 _id值来定义“范围”或在您的实际使用中类似的东西。

那么这个证据在哪里呢？嗯，它很容易重现，所以我只是通过生成一些示例数据来做到这一点:

var stations = [ 
    "AL", "AK", "AZ", "AR", "CA", "CO", "CT", "DE", "FL",
    "GA", "HI", "ID", "IL", "IN", "IA", "KS", "KY", "LA",
    "ME", "MD", "MA", "MI", "MN", "MS", "MO", "MT", "NE",
    "NV", "NH", "NJ", "NM", "NY", "NC", "ND", "OH", "OK",
    "OR", "PA", "RI", "SC", "SD", "TN", "TX", "UT", "VT",
    "VA", "WA", "WV", "WI", "WY"
];


for ( i=0; i<200000; i++ ) {

    var station = stations[Math.floor(Math.random()*stations.length)];
    var t = Math.floor(Math.random() * ( 96 - 50 + 1 )) +50;
    dt = new Date();

    db.temperatures.insert({
        station: station,
        t: t,
        dt: dt
    });

}

在我的硬件上(8GB 笔记本电脑，带旋转磁盘，虽然不是很好，但肯定足够了)，运行每种形式的语句清楚地显示了使用索引和排序(索引上的键与排序语句相同)的版本的明显停顿。这只是一个小小的停顿，但差异很大，足以引起注意。

即使查看解释输出(版本 2.6 及更高版本，或者实际上在 2.4.9 中虽然没有记录)，您也可以看到其中的差异，尽管 $sort 由于存在索引而被优化掉，所花费的时间似乎与索引选择然后加载索引条目有关。包括“覆盖”索引查询的所有字段没有区别。

同样对于记录，纯粹索引日期并且仅对日期值进行排序会给出相同的结果。可能稍微快一点，但仍然比没有排序的自然索引形式慢。

所以只要你能愉快地“范围”在第一个和最后一个 _id值，那么确实在插入顺序上使用自然索引实际上是最有效的方法。您的现实世界里程可能会因这对您是否实用而有所不同，并且最终可能会更方便地在日期上实现索引和排序。

但是，如果您对使用 _id 感到满意范围或大于“最后一个” _id在您的查询中，然后可能进行一次调整以获取值以及您的结果，以便您实际上可以在连续查询中存储和使用该信息:

db.temperature.aggregate([
    // Get documents "greater than" the "highest" _id value found last time
    { "$match": {
        "_id": { "$gt":  ObjectId("536076603e70a99790b7845d") }
    }},

    // Do the grouping with addition of the returned field
    { "$group": {
        "_id": "$station", 
        "result": { "$last":"$dt"},
        "t": {"$last":"$t"},
        "lastDoc": { "$last": "$_id" } 
    }}
])

如果您实际上是在“跟进”这样的结果，那么您可以确定 ObjectId 的最大值。从您的结果中提取并在下一个查询中使用它。

无论如何，玩得开心，但是再次是的，在这种情况下，查询是最快的方式。

关于MongoDB : Aggregation framework : Get last dated document per grouping ID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23360551/

25

4

0

文章推荐： spring - 无法让 OpenEntityManagerInViewFilter 在 JBoss 6.1 中工作

文章推荐： Python Jupyter Notebook 无法打开文件，可能输出太大

文章推荐： c# - IHttpActionResult 与 IActionResult

aggregate - 什么是 "aggregate"
刚刚收到一条错误消息，内容为“union __anonymous 只能是聚合的一部分”。我对此并不感到困惑，因为我正在尝试一些我知道不应该起作用的东西。但这让我想知道 D 中“聚合”的确切定义是什么
elasticsearch - “Filter then Aggregation”还是“Filter Aggregation”？
我最近在研究ES，发现可以达到几乎相同的结果，但是对于这两者之间的 DIFFERENCE ，我不清楚。 "Filter then Aggregation" POST kibana_sample_dat
sql - 更改查询以避免 Bigquery 中的 "Aggregations of aggregations are not allowed"
给定用户和订单表，我需要计算在注册日期后的第二天首次下单的用户。我设法通过以下查询列出了此类用户: SELECT users.first_name as first_name, users.
elasticsearch - Bucket_script aggregation on filters aggregation over nested documents
我有我的文档，它们包含嵌套的“事件”(如网站上的点击)文档。现在我想计算 name=x 的嵌套事件和 name=y 的嵌套事件之间的比率这是我的查询: curl -XGET http://192.
architecture - 领域驱动设计 : Aggregate root & Sub Aggregate roots
在我的项目中，我发现需要以分层方式打破我的聚合，使用顶级根级别聚合，以确保根级别的规则一致性，然后我的根下的对象可以分组为各种聚合。在计算根级聚合的完整性时，根验证自己的规则，然后委托(delegat
Spring 数据 MongoDB : How to describe aggregation $merge with Spring Aggregation?
我想通过 MongoTemplate 执行的代码: { $merge: { into: 'someCollection', on: "_id",
domain-driven-design - DDD : Getting aggregate roots for other aggregates
在过去的两周里，我一直在研究DDD，而真正令我难忘的一件事是聚合根如何包含其他聚合根。从存储库中检索聚合根，但是如果一个根包含另一个根，该存储库是否具有对另一个存储库的引用，并要求其构建子根？最佳答
domain-driven-design - DDD : Aggregate design - Referencing between aggregates
我对如何设计聚合有疑问。我有Company , City , Province和 Country实体。其中每一个都需要是其自身聚合的聚合根。 City , Province和 Country实体在整
domain-driven-design - DDD : Aggregate design - Referencing between aggregates
我对如何设计聚合有疑问。我有Company , City , Province和 Country实体。其中每一个都需要是其自身聚合的聚合根。 City , Province和 Country实体在整
c# - DDD : Aggregate Root accessed by another aggregate root
我目前正在开发 DDD 应用程序，我对如何处理似乎必须从另一个聚合根访问聚合根的场景感到困惑。这是我的边界上下文的概述: 用户可以加入该站点并就他们感兴趣的主题创建帖子。他们还可以创建群组并针对他们创
domain-driven-design - 解决框架 : How to properly derive an aggregate's state from the state of other aggregates?
我正在用 reSolve 做我的第一个项目，但在 DDD、ES 和 CQRS 方面的经验有限。所以，也许有一个非常简单的解决方案，但我还没有找到。我的问题:在我的项目中，一个聚合的状态(订单状态)实
azure - Azure Cosmos cassandra 数据库中的 "Cannot have aggregate and non-aggregate selectors in query"
https://howtoprogram.xyz/2017/02/18/using-group-apache-cassandara/ 我试图在 azure cosmos cassandra db 中执
java - 西提 CEP : Aggregate functions with time window don't "remove" values from aggregation
使用 Siddhi 3.0.3 作为 Java 库。我通过扩展 AttributeAggregator 类开发了自定义聚合函数，并且在调用 processRemove() 方法后我看到了一些奇怪的行
design-patterns - DDD : Can an Aggregate Root be an Entity within another Aggregate Root?
我正在尝试对一个公司拥有许多团队的问题进行建模。有一条业务规则“每个公司的团队名称必须是唯一的”。然而，团队还有许多其他行为，例如加入。此外，一个团队可以有许多报告 - 它们维护对Team.Id的引用
sql-server - T-SQL : Cannot perform an aggregate function on an expression containing an aggregate or a subquery
我正在尝试将总计的结果相加并将其减去总计，但我看到以下错误: 想象一下这样的事情第一个子查询:1 3 5 7第二个子查询:2 4 6 总计:(1+3+5+7) - (2+4+6) = 4 这是我的查
c# - DDD : one-to-many relationship between user aggregate root and almost all entities in other aggregates
我有以下 DDD 场景，分为以下聚合: 用户， friend (用户协会)，文件(供用户上传)，图库(文件分组)，消息(用户通信)，群组(用户可以创建，其他成员可以加入)， GroupMess
SQL Server "cannot perform an aggregate function on an expression containing an aggregate or a subquery"，但 Sybase 可以
这个问题之前已经讨论过，但没有一个答案能解决我的具体问题，因为我正在处理内部和外部选择中的不同 where 子句。该查询在 Sybase 下执行得很好，但在 SQL Server 下执行时会出现本文标
azure - 流分析: How can I start and stop a TUMBLINGWINDOW aggregation job inorder to reduce costs while still getting the same aggregation results?
上下文我使用 Azure 门户创建了一个流作业，该门户使用每日 TUMBLINGWINDOW 聚合数据。下面附上了一个代码片段，修改自 docs ，这显示了类似的逻辑。 SELECT DAT
mysql错误 "ERROR 3029 (HY000): Expression #1 of ORDER BY contains aggregate function and applies to the result of a non-aggregated query"
我正在执行以下查询 SELECT DISTINCT n.nid AS entity_id FROM node n INNER JOIN og_membership om ON n.nid=om.eti
aggregation - 如何聚合普罗米修斯指标
我的各种 docker 容器都导出 prometheus 指标，但是我们的 prometheus 安装只需要从一个端点提取所有指标。不幸的是，这无法更改。因此，我需要通过安装普罗米修斯来收集所有指标。

首页

博学

6Ren·AI

商城

MongoDB : Aggregation framework : Get last dated document per grouping ID