- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
在 Map Reduce 编程中,reduce 阶段有洗牌、排序和 reduce 作为其子部分。排序是一项代价高昂的事情。
在 Map Reduce 编程中,reducer 中的洗牌和排序阶段的目的是什么?
最佳答案
首先 shuffling
是将数据从 mappers 传输到 reducers 的过程,所以我认为这对 reducers 来说是必要的,否则他们将无法有任何输入(或来自每个映射器的输入)。洗牌甚至可以在映射阶段完成之前开始,以节省一些时间。这就是为什么本地图状态尚未达到 100% 时,您会看到减少状态大于 0%(但小于 33%)的原因。
排序
为 reducer 节省时间,帮助它轻松区分新的 reduce 任务何时应该开始。简而言之,当排序的输入数据中的下一个键与前一个不同时,它只是启动一个新的 reduce 任务。每个 reduce 任务都接受一个键值对列表,但它必须调用接受键列表(值)输入的 reduce() 方法,因此它必须按键对值进行分组。如果输入数据在 map 阶段预先排序(本地)并在 reduce 阶段简单地合并排序(因为 reducer 从许多映射器获取数据),那么这样做很容易。
Partitioning
是一个不同的过程。它确定将在哪个 reducer 中发送一个 (key, value) 对,即 map 阶段的输出。默认的 Partitioner 使用键的散列将它们分发到 reduce 任务,但您可以覆盖它并使用您自己的自定义 Partitioner。
这些步骤的重要信息来源是 Yahoo tutorial (archived)。
下面是一个很好的图形表示(随机播放在此图中称为“复制”):
请注意,如果您指定零化简器 (setNumReduceTasks(0)),则根本不会执行改组
和排序
。然后,MapReduce 作业停止在 map 阶段,并且 map 阶段不包括任何类型的排序(因此即使 map 阶段更快)。
更新:由于您正在寻找更官方的东西,您还可以阅读 Tom White 的书“Hadoop:权威指南”。 Here是你的问题的有趣部分。
Tom White 自 2007 年 2 月以来一直是 Apache Hadoop 提交者,并且是 Apache 软件基金会的成员,所以我想它是相当可信和官方的...
关于sorting - Map Reduce Programming中reducer中洗牌和排序阶段的目的是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22141631/
这是贪吃蛇游戏的部分代码。我想做的是制作关卡(大约3个),如果分数达到一定的分数(100或200),关卡就会改变。 在这段代码中,我尝试让分数达到 100 时进入第 2 阶段。但正如我编码的那样,它只
我是移相器新手。我开始看 youtube 系列,我首先有问题。我的背景图片无法加载。我有这个js代码 /* global Phaser */ var game = new Phaser.Game(12
我有一个包含 2 个阶段的应用程序,我不希望用户关闭第二个阶段,只需将其图标化即可。 目前我正在使用 oncloseRequest 处理程序来最小化窗口 - secondaryStage.setOnC
现在,我有一台运行服务器的基本LAMP配置。生产服务器是slicehost。但是我想知道将代码/数据库实例推送到阶段dev> stage> production的最佳方法是什么。它与您创建阶段的方式有
我在舞台上有一个场景。场景的宽度为 337.0 像素。但是,当我将它添加到舞台时,舞台的大小为 337.6 像素,由于 0.6 像素的差异,在屏幕的右边缘留下了一个白色间隙。 我尝试使用 stage.
我有这个未修饰的窗口: public static void initStartPage(final Stage primaryStage) { final Stage startPa
有什么方法可以在 Maven 构建中执行特定阶段。例如,如果我只想运行那些在预集成阶段执行的插件,Maven 是否提供了一种方法来做到这一点? e.g. mvn pre-integration-pha
仅在构建特定分支时如何运行构建步骤/阶段? 例如,仅当分支名为 deployment 时才运行部署步骤,其他所有内容保持不变。 最佳答案 在声明性管道语法中执行相同的操作,下面是一些示例: stage
我有一个简单的查询,试图在Hive 0.14中运行: select sum(tb.field1), sum(tb.field2), tb.month from dbwork.mytable tb gr
在 Mercurial 中,我经常使用 secret 变更集来跟踪我对尚未准备好推送的内容的工作。然后,如果我需要对某些文件进行紧急更改,我可以更新到公共(public)修订版,进行更改并推送它,而不
我一直在为 Heroku 的新附加组件工作,目前它是 alpha 阶段。因此,目前,我无法在我创建的应用程序上添加该附加组件,因为没有按钮可供我添加它。有人可以向我指出一些可以帮助我解决问题的资源吗?
我有 2 个线程正在运行,一个正在监听 soket 等待命令,另一个启动 javafx 应用程序 public class GraphicInterface extends Application i
在我的 Java Fx 应用程序中,我创建了两个阶段。第一阶段是主 Controller 类 HomeController 中的默认阶段。第二个 AddNewEmailController 是通过调用
我正在编写一个简单的 JavaFX 应用程序,它具有三个阶段:登录、注册 (Anmeldung) 和欢迎 (Anwendung)。 抱歉采用德语命名! 我已经在 App 类中创建了每个舞台及其场景,在
问题是我正在使用 jQuery("form")[0].reset(); 在需要时重置表单。此方法正在将形式重置到初始阶段。这里初始阶段的意思是“表单第一次加载到页面时带有一些值的阶段”。 但我需要的是
我有一个带有 pre-integration-test 和 post-integration-test 阶段的 Maven POM,如下所示。 start-server pre-in
我遇到一个错误,我已经为网络制作了一个 UIPageController,但我似乎无法找到它的问题,只有一个错误,请帮忙。代码如下 - 更多代码点播。 @interface ContentViewCo
考虑在其中放置一些文本的大型 (2000x1000) 舞台。舞台缩小到 1000x500,使文本不可读。然后我们尝试通过放大来放大文本。 预期:文本应该在某个时候再次变得可读。 实际:无论我们放大多少
试图在网页中居中 KineticJS 阶段。 尝试过: 但它集中在舞台的左侧,而不是舞台的中间。我错过了什么? 最佳答案 margin:auto 可以对齐这个div中心 关于htm
我正在 jboss 中部署一个简单的 Web 应用程序,其中包含一个 servlet、一个 jsp 文件和一个 easy EJB。这是 servlet 的代码: package webejb; imp
我是一名优秀的程序员,十分优秀!