- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我们有一个看似简单的 map/reduce 作业,它每天都要处理日志记录数据。在开发服务器上,我们可以对大量文档(约 1M)运行此作业,大约需要一分钟,没有任何问题。我们将作业移至生产服务器,即 Amazon EC2 服务器,该作业将以非常快的速度处理大约 50% 的行,然后爬取其余数据。浏览数十万份文件可能需要数小时,而不是预期的一两分钟。所以我希望我们在 map/reduce 作业中犯了一个明显的错误。
这是一个示例输入文档:
{ "_id" : ObjectId("4f147a92d72b292c02000057"), "cid" : 25, "ip" : "123.45.67.89", "b" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7", "r" : "", "l" : "en-US,en;q=0.8", "ts" : ISODate("2012-01-16T19:29:22Z"), "s" : 0, "cv" : "4f143a5fd72b292d7f000007", "c" : ""}
我们只查询一系列 _id。
这是 map 代码:
function() { var browser = {} ,referrer = {}; browser[this.b] = { 'count': 1 }; referrer[this.r] = { 'count': 1 }; var objEmit = { 'count': 1 ,'browsers' : browser ,'referrers' : referrer }; var date = this._id.getTimestamp(); date.setHours(0); date.setMinutes(0); date.setSeconds(0); emit({'cv' : this.cv, 'date' : date, 'cid' : this.cid }, objEmit);};
这里是reduce代码:
function (key, emits) { var total = 0 ,browsers = {} ,referrers = {}; for (var i in emits) { total += emits[i].count; for (var key in emits[i].browsers) { if (emits[i].browsers.hasOwnProperty(key)) { !(browsers[key]) && (browsers[key] = { count : 0 }); browsers[key].count += emits[i].browsers[key].count; } } for (var key in emits[i].referrers) { if (emits[i].referrers.hasOwnProperty(key)) { !(referrers[key]) && (referrers[key] = { count : 0 }); referrers[key].count += emits[i].referrers[key].count; } } } return {'count' : total, 'browsers' : browsers, 'referrers' : referrers}};
没有最终确定,我们将 map/reduce 作业输出到现有集合,并将“merge”选项设置为 true。
非常感谢任何帮助。
最佳答案
由于它是在开发和生产中运行的相同代码,并且您在非常大的集合上在开发中运行它并且返回速度非常快,您怀疑您的代码可能有问题的任何特定原因是什么?
您是否有可能在微型实例上运行?如果您不知道,Micro instances cap average CPU usage这可能会导致大量数据在不允许处理的情况下建立起来,从而损害您的 Map-Reduce 事件(I/O 没有以相同的方式受到限制,因此不断进入,然后 Linux 内核大部分时间都在管理它并使事情变得更糟)。
从 Micro 切换到 Small,即使 CPU 速度较低,也可能对您有所帮助,因为您有一个恒定的 CPU 周期“流”来工作(就像普通机器一样)并且 MongoDB 的内部调度可能会更好地适应。
这在以前可能不是问题,因为正常的查询“尖峰”持续时间不足以导致 CPU 限制开启。
关于mongodb - Mongo 映射/减少大型集合的减速,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10726529/
我在 mongo 中有一个查询,看起来像 db.Table_Name.group({ "key": { "Camp": true }, "initial": { "Clicks": 0 }
这是一个示例查询: db.readings.find( {"_id.s": ISODate("2012-11-01T00:05:00Z") }).count() 查询在 mongo shell 中工作
我正在使用 mongo 模板查询基于状态和邮政编码的文档,这是使用以下标准和查询方法实现的: List modelClass = null; Criteria criteria = new Crite
目前,我有一个旧版本的 mongo,即 2.6 在我的系统上运行。我的网站已经投入生产,并且拥有大量客户数据。我正在计划升级到 mongo 3.2。 所以,我的问题是 mongo v3.2 的 mon
我构建了一个 MongoDB。我想通过某些分组进行聚合。我找到了 document ,这将为我做到这一点。一切正常,但确定limitations指出: 管道的输出只能包含 16 兆字节。如果你的结果s
我无法连接到 MongoDB .在 Ubuntu 中它可以工作,但我在 CentOS 工作现在。这是错误信息: MongoDB shell version: 2.4.2 connecting to:
我试图使用mongo运行最简单的mongo-express和docker-compose容器。我遇到了许多错误,这些错误将在以后解释。 我尝试了以下docker-compose配置: 1。 versi
我有一个 mongo 查询,如下所示。 db.Course.find( { $and: [{courseCallNo: {$in : [/^ssoapicall1$/i]} }, {clientId
我想知道为什么我会收到以下 php 通知: ( ! ) Notice: Mongo::__construct(): parsing servers in C:\htdocs\multishop\lib
(问题灵感来自this one) 给定一个数据集: db.mycollection.insert([ {a:1, b:2, c:3}, {a:1, b:3, c:4}, {a:0, b:1
如果我已经使用 PECL 成功安装了 mongoDB,还需要获取 debian 软件包“php5-mongo”吗?有什么不同?(这个问题应该迁移吗?) 最佳答案 区别与从 CPAN 或 debian(
Mongo 一天前还运行良好。然后今天早上我起床并尝试打开我得到这个: MongoDB shell version: 2.6.4 2015-01-06T11:10:54.142-0500 SE
我正在尝试使用 C# Mongo 驱动程序将文件上传到 Mongo Atlas。但我不明白如何连接类 MongoServerSettings。我试过这个: private static MongoSe
我有两个版本的 mongodb,2.4.3 和 2.6.0。我可以在不同的端口上启动这两个版本,但是在使用 ./mongos 运行它时出现错误: BadValue error: no args for
我需要在 不 关闭的情况下进行分片,或者在端口 27017 中重启现有的 mongo 实例。 我尝试了以下操作,(当默认端口正在运行和 mongo 实例时) mongod --shardsvr --d
在无意中升级了 mongodb 包(3.4.9 -> 3.6.1)后,有没有办法升级 mongo 数据库? 根据 mongo 文档,作为 prerequisite在升级过程中,featureCompa
我正在使用 Sails 0.12.3 和 mongo 3.2.7 这是我的 config/connections.js。 mongo: { adapter: 'sails-mongo', host
我正在使用 mongodb 构建一个基本的搜索引擎,我已经验证了基本查询在 mongo shell 中的工作。不过,我不太明白如何将其翻译成 PHP。 输入字符串中的空格表示“和”运算符和 |或管道字
我有一个用 @Document 注释的 Mongo 集合,我希望能够从字符串 (JSON) 中获取该 Java 对象,因为我们正在将这些类作为字符串插入队列。 Spring-Data-Mongo 中是
我正在使用 Linux Debian 9。我已经安装了 JDK 1.8。我使用的maven版本是3.6,springboot的版本是2.1。 mongodb版本是3.6。 下面是我试图保存在 mong
我是一名优秀的程序员,十分优秀!