- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我们有一个看似简单的 map/reduce 作业,它每天都要处理日志记录数据。在开发服务器上,我们可以对大量文档(约 1M)运行此作业,大约需要一分钟,没有任何问题。我们将作业移至生产服务器,即 Amazon EC2 服务器,该作业将以非常快的速度处理大约 50% 的行,然后爬取其余数据。浏览数十万份文件可能需要数小时,而不是预期的一两分钟。所以我希望我们在 map/reduce 作业中犯了一个明显的错误。
这是一个示例输入文档:
{ "_id" : ObjectId("4f147a92d72b292c02000057"), "cid" : 25, "ip" : "123.45.67.89", "b" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7", "r" : "", "l" : "en-US,en;q=0.8", "ts" : ISODate("2012-01-16T19:29:22Z"), "s" : 0, "cv" : "4f143a5fd72b292d7f000007", "c" : ""}
我们只查询一系列 _id。
这是 map 代码:
function() { var browser = {} ,referrer = {}; browser[this.b] = { 'count': 1 }; referrer[this.r] = { 'count': 1 }; var objEmit = { 'count': 1 ,'browsers' : browser ,'referrers' : referrer }; var date = this._id.getTimestamp(); date.setHours(0); date.setMinutes(0); date.setSeconds(0); emit({'cv' : this.cv, 'date' : date, 'cid' : this.cid }, objEmit);};
这里是reduce代码:
function (key, emits) { var total = 0 ,browsers = {} ,referrers = {}; for (var i in emits) { total += emits[i].count; for (var key in emits[i].browsers) { if (emits[i].browsers.hasOwnProperty(key)) { !(browsers[key]) && (browsers[key] = { count : 0 }); browsers[key].count += emits[i].browsers[key].count; } } for (var key in emits[i].referrers) { if (emits[i].referrers.hasOwnProperty(key)) { !(referrers[key]) && (referrers[key] = { count : 0 }); referrers[key].count += emits[i].referrers[key].count; } } } return {'count' : total, 'browsers' : browsers, 'referrers' : referrers}};
没有最终确定,我们将 map/reduce 作业输出到现有集合,并将“merge”选项设置为 true。
非常感谢任何帮助。
最佳答案
由于它是在开发和生产中运行的相同代码,并且您在非常大的集合上在开发中运行它并且返回速度非常快,您怀疑您的代码可能有问题的任何特定原因是什么?
您是否有可能在微型实例上运行?如果您不知道,Micro instances cap average CPU usage这可能会导致大量数据在不允许处理的情况下建立起来,从而损害您的 Map-Reduce 事件(I/O 没有以相同的方式受到限制,因此不断进入,然后 Linux 内核大部分时间都在管理它并使事情变得更糟)。
从 Micro 切换到 Small,即使 CPU 速度较低,也可能对您有所帮助,因为您有一个恒定的 CPU 周期“流”来工作(就像普通机器一样)并且 MongoDB 的内部调度可能会更好地适应。
这在以前可能不是问题,因为正常的查询“尖峰”持续时间不足以导致 CPU 限制开启。
关于mongodb - Mongo 映射/减少大型集合的减速,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10726529/
编辑:我似乎问错了这个问题。 我正在尝试寻找一种方法来查询一个集合是否在另一个集合中可用。例如: SELECT * FROM something WHERE (1, 3) IN (1, 2, 3, 4
这两种方法似乎 produce the same results ,但我一直很难真正说服人们第二种方法有效,因为它显然并不为人所知。 // Create some data var foo = { '
我一直在学习Kotlin,并且遇到过Collections API。在Kotlin之前,我一直在学习Java,并且我知道Java中有很多不同类型的Collections API。例如,我们使用List
为什么我会得到不同的行为: Collection col2 = new ArrayList(col); 集合 col2 = new ArrayList(); col2.addAll(col) 我正在与
所以我有一个代表专辑信息的 JSON 对象。给定“function updateRecords(id, prop, value)”我希望能够更新每个条目。正确的完成代码如下。 我得到了指示,粗体部分,
我想存储一个对象集合,这些对象根据它们所代表的值进行键控。这些键可以重复。例如: [4] => Bob [5] => Mary [5] => Sue [9] => Steve [10] =>
在检查 ArrayList API 时,我注意到一些看起来很奇怪的东西。 确实,这里是 ArrayList 构造函数实现,其中 Collection 作为参数传递: public ArrayList(
我正在为 API 编写一个 swagger 定义文件。 API 是用于 GET 请求的 /path/to/my/api: get: summary: My Custom API d
我知道scala.collection包中有两个非常有用的对象,可以帮助我们实现这个目标: JavaConverters(如果我想明确说明并准确说明我要转换的内容) JavaConversions(如
我已经阅读了无数其他帖子,但似乎无法弄清楚发生了什么,所以是时候寻求帮助了。 我正在尝试将包含集合的域实体映射到也包含集合的 dtos。 这是一个原始示例; (我提前为代码墙道歉,我尽量保持简短):
我正在创建一个具有 ArrayList 的类,因此当我调用构造函数时,它会初始化该数组: public class ElementsList { private ArrayList list;
我正在阅读事件指南和指南的开头,它说: You can also add an event listener to any element in the this.$ collection using
我是 Python 新手,想知道如何使用键在字典中存储不同数据类型的列表 例如 - {[Key1,int1,int1,String1] , [Key2,int2,int2,String2], [Key
int[] mylist = { 2, 4, 5 }; IEnumerable list1 = mylist; list1.ToList().Add(1); // why 1 does not get
我在 UI 表单中的每一行之后将以下内容添加到 HashMap 集合中 声明 Map> map = new HashMap>(); List valSetOne = new ArrayList();
我正在开发我的第一个 Java 项目,我有一个问题。问题应该很简单(虽然代码不是那么短,但没有理由被吓倒:))。我创建了一个基本的角色扮演游戏,并且有一个定义每个角色的抽象类“Character”。在
我正在开发一款应用程序,可以为用户收集推文、Facebook 状态和 Facebook 照片。目前,用户确切地设定了他们希望这种收获发生的时间和时间,并且蜘蛛会在此期间拉取数据。 when 和 to
有谁知道在 C# 中是否有与 Java 的 Set 集合等效的好方法?我知道您可以通过填充但忽略值来使用 Dictionary 或 HashTable 在某种程度上模仿集合,但这不是一种非常优雅的方式
EXISTS 该函数返回 集合中第一个元素的索引,如果集合为空,返回NULLNULLNULL Collecti
RDF集合是通过属性 rdf:parseType="Collection" 来描述仅包含指定成员的组 rdf:parseType="Collection" 属
我是一名优秀的程序员,十分优秀!