mongodb - mongoDB 中具有时间间隔的增量 MapReduce-6ren

mongodb - mongoDB 中具有时间间隔的增量 MapReduce

转载作者：可可西里更新时间：2023-11-01 09:57:30

25

4

我以 10 分钟的时间间隔从服务器获取了一些记录(在 1 小时内我将获取 6 个文件)我想在接下来的几个小时内每 1 小时做一次 map reduce 我将不得不对 6 个文件和最后几个小时的文件进行下一组的 map reduce我将如何解决这个问题？帮我我混淆了过去 1 个月谢谢苏希尔·克尔·辛格

最佳答案

为了按小时汇总您的 10 分钟日志文件，您可以在 map 函数中将每个日志文件的时间戳舍入到最接近的小时，并在 reduce 函数中按小时对结果进行分组。

这是一个小的虚拟示例，它从 mongo shell 中说明了这一点:

创建 100 个日志文件，每个间隔 10 分钟并包含一个 0-10 之间的随机数，并将它们插入数据库的 logs 集合中:

for (var i = 0; i < 100; i++) { 
    d = new ISODate();
    d.setMinutes(d.getMinutes() + i*10);
    r = Math.floor(Math.random()*11)
    db.logs.insert({timestamp: d, number: r})
}

要检查 logs 集合是什么样的，请发送类似 db.logs.find().limit(3).pretty() 的查询，结果为:

{
    "_id" : ObjectId("50455a3570537f9433c1efb2"),
    "timestamp" : ISODate("2012-09-04T01:32:37.370Z"),
    "number" : 2
}
{
    "_id" : ObjectId("50455a3570537f9433c1efb3"),
    "timestamp" : ISODate("2012-09-04T01:42:37.370Z"),
    "number" : 3
}
{
    "_id" : ObjectId("50455a3570537f9433c1efb4"),
    "timestamp" : ISODate("2012-09-04T01:52:37.370Z"),
    "number" : 8
}

定义一个 map 函数(在本例中称为 mapf)，将时间戳四舍五入到最接近的小时(向下舍入)，用于 emit 键。 emit 值是该日志文件的编号。

mapf = function () { 
    // round down to nearest hour
    d = this.timestamp;
    d.setMinutes(0);
    d.setSeconds(0);
    d.setMilliseconds(0);
    emit(d, this.number); 
}

定义一个 reduce 函数，对所有发出的值(即数字)求和。

reducef = function (key, values) {
    var sum = 0;
    for (var v in values) {
        sum += values[v];
    }
    return sum;
}

现在对日志集合执行 map/reduce。此处的 out 参数指定我们要将结果写入 hourly_logs 集合并将现有文档与新结果合并。这确保稍后提交的日志文件(例如，在服务器故障或其他延迟之后)一旦出现在日志中，就会包含在结果中。
```
db.logs.mapReduce(mapf, reducef, {out: { merge : "hourly_logs" }})
```

最后，要查看结果，您可以在 hourly_logs 上查询一个简单的查找:

db.hourly_logs.find()

{ "_id" : ISODate("2012-09-04T02:00:00Z"), "value" : 33 }
{ "_id" : ISODate("2012-09-04T03:00:00Z"), "value" : 31 }
{ "_id" : ISODate("2012-09-04T04:00:00Z"), "value" : 21 }
{ "_id" : ISODate("2012-09-04T05:00:00Z"), "value" : 40 }
{ "_id" : ISODate("2012-09-04T06:00:00Z"), "value" : 26 }
{ "_id" : ISODate("2012-09-04T07:00:00Z"), "value" : 26 }
{ "_id" : ISODate("2012-09-04T08:00:00Z"), "value" : 25 }
{ "_id" : ISODate("2012-09-04T09:00:00Z"), "value" : 46 }
{ "_id" : ISODate("2012-09-04T10:00:00Z"), "value" : 27 }
{ "_id" : ISODate("2012-09-04T11:00:00Z"), "value" : 42 }
{ "_id" : ISODate("2012-09-04T12:00:00Z"), "value" : 43 }
{ "_id" : ISODate("2012-09-04T13:00:00Z"), "value" : 35 }
{ "_id" : ISODate("2012-09-04T14:00:00Z"), "value" : 22 }
{ "_id" : ISODate("2012-09-04T15:00:00Z"), "value" : 34 }
{ "_id" : ISODate("2012-09-04T16:00:00Z"), "value" : 18 }
{ "_id" : ISODate("2012-09-04T01:00:00Z"), "value" : 13 }
{ "_id" : ISODate("2012-09-04T17:00:00Z"), "value" : 25 }
{ "_id" : ISODate("2012-09-04T18:00:00Z"), "value" : 7 }

结果是 10 分钟日志的每小时摘要，其中 _id 字段包含该小时的开始，而 value 字段包含随机数的总和。在您的情况下，您可能有不同的聚合运算符；根据您的需要修改 reduce 函数。

正如 Sammaye 在评论中提到的，您可以使用每小时运行的 cron 作业条目自动执行 map/reduce 调用。

如果您不想每次都处理完整的日志收集，您可以通过将文档限制为每小时时间窗口来运行增量更新，如下所示:

var q = { $and: [ {timestamp: {$gte: new Date(2012, 8, 4, 12, 0, 0) }},                                                  
                  {timestamp: {$lt:  new Date(2012, 8, 4, 13, 0, 0) }} ] }

db.logs.mapReduce(mapf, reducef, {query: q, out: { merge : "hourly_logs" }})

这将只包括 12 点到 13 点之间的日志文件。请注意 Date() 对象中的月份值从 0 开始(8 = 九月)。由于 merge 选项，在已处理的日志文件上运行 m/r 是安全的。

关于mongodb - mongoDB 中具有时间间隔的增量 MapReduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12253205/

25

4

0

文章推荐： c++ - 在 Visual C++ 中使用 WebRTC 库

文章推荐： regex - mongodb正则表达式大写五个字母

文章推荐： vba - Excel VBA 代码无法打开名为 "CON.txt"的文件

mongodb - 使用 mongodb+srv 连接到部署为有状态集的 mongodb
我已经在 kubernetes 中部署了一个 3 pod mongodb statefulset，并且我正在尝试使用新的 mongodb+srv 连接字符串 (mongodb 3.6) 连接到具有 S
mongodb - 如何使用 MongoDB Atlas 连接 MongoDB
我已经创建了 MongoDB Atlas 帐户，并尝试连接。但出现以下错误。 MongoDB 连接错误 MongoNetworkError: 首次连接时无法连接到服务器 [cluster0-shard
mongodb - JsonLD+MongoDB : Store JsonLD in MongoDB
我正在使用 Node-WebKit 创建桌面应用程序。该应用程序基本上是创建文档(员工日常工作的详细信息)，任何注册用户都可以对这些文档发表评论。我正在创建的文档将被分成几个部分。用户将对特定部分发表
mongodb - 服务 'MongoDB Server' (MongoDB) 启动失败
我正在尝试使用官方网站上的安装程序在我的本地机器上安装 mongo DB。但是我不断收到这条消息，有人可以帮忙吗？我试过提供的解决方案 here但没有帮助。最佳答案我建议执行以下操作: 按 Wi
mongodb - 如何使用 MongoDB 指南针删除 MongoDB 集合中选定的多条记录
我对 MongoDB 和 MongoDB Compass 非常陌生。我的客户集合中有大约 1000 条记录。如何通过 MongoDB 指南针一次删除所有记录。非常感谢，最佳答案您可以使用 Mo
mongodb - mongodb 和 mongodb-server 的区别
当我尝试在我的 Ubuntu 机器中安装 mongodb 时，apt-get 会显示以下选项 mongodb mongodb-clients mongodb-dev mongodb-server 谁能
mongodb - 如何将 mongodb 客户端连接到本地 Meteor MongoDB
如何将 Robomongo(或任何其他 mongodb 客户端)连接到由本地 Meteor 应用程序创建的 mongodb 实例？最佳答案确保 Meteor 正在本地主机上运行。打开终端窗口并运行
mongodb - 频率表生成 - MongoDB
我需要在 MongoDB 中生成一个简单的频率表。假设我在名为 books 的集合中有以下文档。 { "_id": 1, genre: [ "Fantasy", "Crime"
mongodb - mongodb mapreduce中的where条件
我如何在 mongos mapreduce 中指定一个条件，就像我们在 mongos group 函数中所做的那样。我的数据是这样的 {lid:1000, age:23}, {lid:3000, a
mongodb - 从 mongodb shell 运行具有 mongodb 查询的脚本
我的 mongodb 数据库文档中有几个 ID。我需要通过脚本在这些 ID 上创建索引，这样我就不必一次又一次地运行 ensureIndex 命令。 db.getCollection("element
mongodb - 比较嵌套数组中的对象 - mongoDB
在我的数据库中，每个包含项目的文档中都有一个嵌套的元素数组，格式如下: elements:[ { "elem_id": 12, items: [ {"i_id": 1
mongodb - MongoDB 上的时区查询
我正在构建一个应用程序，其中用户可以位于不同的时区，并且我运行的查询对他们的时区很敏感。我遇到的问题是 MongoDB 似乎在查询时忽略了时区! 这是日期字段“2019-09-29T23:52:13
mongodb - 为什么当我添加新集合时只有一个分片获取数据？ - MongoDB
我正在研究使用 mongodb 进行分片，我有以下结构: 1 个 Mongod 到我的 ConfigServer，在 ReplicaSet 中只有 1 个成员 2 个分片，每个分片在 ReplicaS
mongodb - mongoDB 中是否可以使用循环对象引用？
我正在尝试获取一个 mongoDB 对象，例如 Friend1 包含另一个 mongoDB 对象 Friend2，该对象又包含第一个对象 Friend1本质上使它成为一个循环对象引用。要么这样，要么
mongodb - 通过命令行正确卸载 MongoDB
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题？ Update the question所以它是on-topic对于堆栈溢出。 9年前关闭。 Improve this que
mongodb - 无法通过终端使用身份验证数据连接 mongodb
Mongo 版本 5.0.2。 Ubuntu 20.0 我在本地主机中启用了 MongoDB 连接的安全性。我正在尝试通过以下命令使用身份验证详细信息连接我的本地主机 MongoDBmongo ad
mongodb - 当配置实例使用与数据实例相同的二进制文件时升级 Mongodb
我即将将分片的 MongoDB 环境从 2.0.7 升级到 2.2.9，最终我想升级到 2.4.9，但显然我需要通过 2.2 来完成。 2.2 的发行说明声明配置服务器应该首先升级其二进制文件，然后是
mongodb - 无法远程连接到 mongodb
目前，我无法在我的虚拟 Ubuntu 机器上远程连接 mongodb 服务器。我无法使用在我的 Windows PC 上运行的 Robomongo 客户端连接，该 PC 也运行 vm。这是两台电脑的
mongodb - 如何从 mongodb compass 连接 mongodb 集群？
我创建了一个免费的 mongodb 集群。我创建了一个用户，设置了与 mongodb compass 的连接，复制了连接字符串，然后打开了我的 mongodb compass。将复制的字符串粘贴到那里
mongodb - MongoDB 索引名称
我使用 java 代码创建了 mongo 数据库集合索引 dbCollection.createIndex("accountNumber"); 当我看到索引使用 db.accounts.getInde

首页

博学

6Ren·AI

商城

mongodb - mongoDB 中具有时间间隔的增量 MapReduce