14、Hadoop 入门：MapReduce-6ren

14、Hadoop 入门：MapReduce

转载作者：大佬之路更新时间：2024-01-07 13:08:27

27

4

Map阶段执行过程

第一阶段：

把输入目录下的文件按照一定标准逐个进行逻辑切片，形成切片规划。
默认切片大小和块的大小相同128M，每一个切片由一个MapTask处理。

第二阶段：

对切片数据按照一定规则读取解析返回<key,value>对。
默认按行读取数据。key是每一行起始位置的偏移量，value是本行的文本内容。

第三阶段：

调用Mapper类中的map方法。每读取出一个<key,value>对，调用一次map方法。

第四阶段：

按照一定规则对Map输出的键值对进行分区partition。
默认不分区，因为只有一个reducetask，分区的数量就是reducetask运行的数量。

第五阶段：

Map输出数据写入内存缓存区，达到比例溢出到磁盘上。溢出spill的时候对键key进行排序sort。默认根据key字典序排序。

第六阶段：

对所有的溢出文件进行最终的merge合并，成为一个文件。

Reduce阶段执行过程

第一阶段：
ReduceTask会主动复制拉取属于自己要处理的数据。
第二阶段：
把拉取的数据，全部进行合并merge，即把分散的数据合并成一个大的数据。再对合并后的数据进行排序。
第三阶段：
对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入HDFS文件中。

Shuffle洗牌机制

在MapReduce中Shuffle并不是将数据洗乱，而是将数据整理成有一定规则的数据，方便reduce端接收。

shuffle这个过程在 Map产生输出数据开始到Reduce取得数据作为输出之前 这个阶段。

shuffle频繁的涉及到内存磁盘之间的反复，这就是MapReduce相比SparkFlink计算慢的原因。

27

4

0

文章推荐： 16、Hadoop 入门：Hive-入门

文章推荐： 15、Hadoop 入门：YARN

文章推荐： 13、Hadoop 入门：NameNode、SecondaryNameNode剖析

文章推荐： 12、Hadoop 入门：hdfs的读写流程

16、Hadoop 入门：Hive-入门
Hive —— 入门 Hive介绍 Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化数据文件映射为一张数据库表，基于表提供了一
18、Hadoop 入门：HBase-入门
HBase —— 入门 HBase介绍 HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”
Vue-入门
零：前端目前形势前端的发展史 HTML(5)、CSS(3)、JavaScript(ES5、ES6)：编写一个个的页面 -> 给后端(PHP、Python、Go、Java) ->
JavaScript 入门
在本教程中，您将了解在计算机上运行 JavaScript 的不同方法。 JavaScript 是一种流行的编程语言，具有广泛的应用程序。 JavaScript 以前主要用于使网页具有交
python爬虫三个小案例(入门)
我曾经是一个对编程一窍不通的小白，但因为对互联网世界的好奇心和求知欲的驱使，我踏入了编程的殿堂。在学习的过程中，我发现了一门神奇的编程语言——Python。Python有着简洁、易读的语法，让初学者能
python爬虫三个小案例(入门)
嗨，亲爱的读者们！今天我要给大家分享一些关于Python爬虫的小案例。你是否曾为了获取特定网页上的数据而烦恼过？或者是否好奇如何从网页中提取信息以供自己使用？那么，这篇文章将会给你一些启示和灵感。
iPhone - 入门
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
javascript - 入门
我想创建一个像https://apprtc.appspot.com/?r=04188292这样的应用程序。我对 webrtc 了解一点，但无法掌握 google app-engine。如何为 java
Python - 入门
我刚刚开始使用 Python 并编写了一个简单的周边程序。但是，每当我在终端中键入 python perimeter.py 时，都会收到以下错误，我不知道如何解决。 >>> python perime
通俗易懂的Redis数据结构基础教程(入门)
Redis有5个基本数据结构，string、list、hash、set和zset。它们是日常开发中使用频率非常高应用最为广泛的数据结构，把这5个数据结构都吃透了，你就掌握了Redis应用知识的一半了
Servlet第一个项目的发布(入门)
创建发布web项目具体步骤： 1.在开发工具中创建一个dynamic web project helloword 2.在webContent中创建index.html文件 3.发布web应用到
入门：如何更改Ubuntu的终端字体和大小
如果你在 Ubuntu 上使用终端的时间很长，你可能会希望调整终端的字体和大小以获取一种良好的体验。更改字体是一种最简单但最直观的 Linux 的终端自定义的方法。让我
ADODB 入门
1. 前言 ADODB 是 Active Data Objects Data Base 的简称，它是一种 PHP 存取数据库的函式组件。现在 SFS3 系统 (校园自由软件交流网学务系统) 计划的
nosql - neo4j 入门
我对 neo4j 完全陌生，我很抱歉提出这样一个基本问题。我已经安装了neo4j，我正在使用shell“localhost:7474/webadmin/#/console/” 我正在寻找一个很好的例子
ios4 - 核心音频指导/入门
我正在阅读 ios 4 的核心音频，目的是构建一个小测试应用程序。在这一点上，我对所有 api 的研究感到非常困惑。理想情况下，我想知道如何从两个 mp3 中提取一些样本到数组中。然后在回调循环中
ubuntu - GNOME 入门
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是无关紧要的，因
ide - GNUStep 入门
我下载了 GNUStep并安装了它，但是我不确定在哪里可以找到 IDE。有谁知道什么程序可以用作 GNUStep IDE/从哪里获取它们？否则，有没有人知道有关如何创建和编译基本 GNUStep 程序
solr - Solr 入门
我正在尝试开始使用 Apache Solr，但有些事情我不清楚。通读tutorial ，我已经设置了一个正在运行的 Solr 实例。我感到困惑的是 Solr 的所有配置(架构等)都是 XML 格式的。
gis - BruTile 入门
请问有没有关于如何开始使用 BruTile 的文档？我目前正在使用 SharpMap，我需要预缓存切片以加快进程最佳答案我今天正在研究这个:)Mapsui项目site严重依赖 SharpMap
emacs - CEDET 入门
尽我所能，我无法让 CEDET 做任何事情。 Emacs 24.3。我下载了最新的 CEDET 快照。我从他的底部(不是这样)Gentle Introduction 中获取了 Alex Ott 的设置

首页

博学

6Ren·AI

商城