hadoop - hadoop中的输入拆分和 block-6ren

hadoop - hadoop中的输入拆分和 block

转载作者：可可西里更新时间：2023-11-01 15:29:33

24

4

我的文件大小为 100 MB，默认 block 大小为 64 MB。如果我不设置输入拆分大小，默认拆分大小将是 block 大小。现在拆分大小也是 64 MB。

当我将这个 100 MB 的文件加载到 HDFS 时，这个 100 MB 的文件将分成 2 个 block 。即 64 MB 和 36 MB。例如下面是一首 100 MB 大小的歌词。如果我将这些数据加载到 HDFS 中，比如从第 1 行到第 16 行的一半正好是 64 MB 作为一个拆分/ block (直到 "It made the")和第 16 行的剩余一半( children 欢笑和玩耍)到文件末尾作为第二 block (36 MB)。将有两个映射器作业。

我的问题是第一个映射器如何考虑第 16 行(即 block 1 的第 16 行)，因为该 block 只有一半的行，或者第二个映射器如何考虑 block 2 的第一行，因为它是也有一半的线。

Mary had a little lamb
Little lamb, little lamb
Mary had a little lamb
Its fleece was white as snow
And everywhere that Mary went
Mary went, Mary went
Everywhere that Mary went
The lamb was sure to go

He followed her to school one day
School one day, school one day
He followed her to school one day
Which was against the rule
It made the children laugh and play
Laugh and play, laugh and play
It made the children laugh and play
To see a lamb at school

And so the teacher turned him out
Turned him out, turned him out
And so the teacher turned him out
But still he lingered near
And waited patiently
Patiently, patiently
And wai-aited patiently
Til Mary did appear

或者在拆分 64 MB 时，hadoop 会考虑整行 16，而不是拆分单行吗？

最佳答案

在 hadoop 中，数据是根据输入拆分大小和 block 大小读取的。

文件根据大小分成多个FileSplits。每个输入拆分都使用与输入中的偏移量对应的起始参数进行初始化。
当我们初始化 LineRecordReader 时，它会尝试实例化一个开始读取行的 LineReader。
如果定义了 CompressionCodec，它会处理边界。所以如果InputSplit的开头不为0，则回溯1个字符，然后跳过第一行，(遇到\n或\r\n)回溯保证不跳过有效行。

代码如下:

if (codec != null) {
   in = new LineReader(codec.createInputStream(fileIn), job);
   end = Long.MAX_VALUE;
} else {
   if (start != 0) {
     skipFirstLine = true;
     --start;
     fileIn.seek(start);
   }
   in = new LineReader(fileIn, job);
}
if (skipFirstLine) {  // skip first line and re-establish "start".
  start += in.readLine(new Text(), 0,
                    (int)Math.min((long)Integer.MAX_VALUE, end - start));
}
this.pos = start;

由于拆分是在客户端计算的，所以映射器不需要按顺序运行，每个映射器都已经知道是否需要丢弃第一行。

因此，在您的情况下，第一个 block B1 将从偏移量 0 读取数据到 “It made the children laugh and play” 行

Block B2 将从“To see a lamb at school”行到最后一行偏移量读取数据。

您可以引用这些作为引用:

https://hadoopabcd.wordpress.com/2015/03/10/hdfs-file-block-and-input-split/
How does Hadoop process records split across block boundaries?

关于hadoop - hadoop中的输入拆分和 block ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37065242/

24

4

0

文章推荐： hadoop - HDFS 加密错误 | root 不允许做 'CREATE_KEY'

文章推荐： javascript - 处理 POST api 和互联网连接丢失的良好做法

文章推荐： ubuntu - Hadoop Hue 无法访问文件系统根目录

c++ - 输入、输出、输入/输出参数
我有一个测试即将进行，我想澄清两个有关参数的问题。在我的笔记中指出，将参数传递给函数的推荐方法是使用“按引用传递” const type& x; // for "in" parameters
parameters - 输入、输出、输入、返回 UML 中的参数方向
当我通过 OMG 2.5(Beta)推广的 UML 规范阅读以下概念时: in: Indicates that Parameter values are passed in by the caller
javascript - Angular 8 : (keyup. 输入)不触发只读 html 输入
我试图在用户按下 Enter 时触发一个函数。我将此输入设置为只读的原因是限制用户在填充值后修改输入中的值。该值来自将在点击属性中触发的弹出窗口。问题是 keyup.enter 没有触发该输入。代
jquery-plugins - jQuery token 输入( token 输入)在模式弹出窗口上不起作用，列表隐藏在弹出窗口下
我在jQuery中使用模式弹出窗口控件，该弹出窗口具有由jQuery Tokenize输入插件提供动力的输入文本。问题是，当我在模式弹出文本框中键入内容时， token 化插件的搜索结果显示为隐藏在弹
javascript - 在 getElementsByTagName 中只选择 Checkbox 输入，排除 Textbox 输入
我有一个问题。当我选中复选框时，系统工作正常，总值发生变化，但一旦我修改文本输入，它就会变为 0。我需要将此文本框输入排除在更改值之外。这是 html: $15000 $
css - 输入[类型 ="button"]、输入[类型 ="submit"]、按钮 CSS 行为不正常
我正在努力让它发挥作用，但还是有些不对劲。我想用 CSS 设置提交按钮的样式以匹配我已有的按钮。风格: input[type="button"], input[type="submit"], b
Java数组通过nextInt()输入
import java.util.*;; public class selection { Scanner in=new Scanner(System.in); private
networking - 输入/输出带宽是否共享相同的网卡限制？
这可能是一个非常菜鸟的问题。假设我有一个带宽限制为 100MB/s 的网卡，那么输入/输出带宽是否有可能达到该限制同时 ?或者我会在任何时候遇到这个不等式:in bandwidth + out ba
scala - `this` 输入 Scala
看着这个问题，Fill immutable map with for loop upon creation ，我很好奇是什么this表示在 Map(1 -> this) . scala> Map(1
excel - 如何根据excel中的另一个单元格值限制单元格中的值输入/输入？
我有这样的东西一个乙问？是或否数字数字或零我想做的是: 如果 B1 = “Y”，则让用户在 B2 中输入一个数字。如果 B1 = “N”，则将 B2 中的值更改为零，并且不允许用户在
表格单元格内的 HTML 输入
我有一个包含许多列的表，我想添加 input标题单元格内的字段，但我希望输入适合根据正文内容的宽度。这是没有 input 的样子领域: 这就是 input 的样子领域: 可以看出，像“index”和
FTP 输入/输出文件夹名称最佳实践
关于为 FTP 客户端设置传出和传入文件夹，您遵循哪些最佳实践(如果有)？我们通常使用“outgoing”和“incoming”，但无论你如何表述方向，它都可以有两种解释方式，具体取决于名称相对于哪一
haskell - 输入 ‘where’ 解析错误
我正在尝试“求解”给定 d 的 Pell 方程:x^2 - d * y^2 = 1，或者至少我想得到最小的 x > 0 来求解方程。到目前为止，一切都很好。这是我的 Haskell 代码 minX :
python - VS代码在运行ctrl时移至下一行+输入
我是VS Code的新手，可以使用Ctrl + Enter将代码运行到python交互式窗口中。我希望光标自动移动到下一行，因此我可以逐行浏览代码。能做到吗？最佳答案如this blog pos
多维数组的 typescript 输入
我正在创建一个 bool 值矩阵/二维数组，并且我想为 dategrid 推断一种不仅仅是“ANY”的类型。 let yearRange = [2000,2001,2002,2003,2004]; l
python - “输入”两个具有最低复杂度的排序列表
我有两个排序的列表，例如 a = [1, 4, 7, 8] b = [1, 2, 3, 4, 5, 6] 我想知道a中的每个项目是否在b中。对于上面的示例，我想找到 a_in_b = [True, T
javascript - 输入/返回时指令语法错误
菜鸟警报这很奇怪 - 当我编写以下代码时，尝试在 AngularJS 中创建自定义指令: myModule.directive('myTab', function(){ console.lo
javascript - 单击显示文本字段(输入)
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
godot - 输入 "Any"的正确方法
假设我正在使用 gdscript 静态类型，并且对于一个函数参数，我事先不知道我会得到什么。这就是 python 中 typing.Any 的作用。如何使用 gdscript 做到这一点？似乎 Va
javascript - 向图像添加字段(输入)
我使用 dropzone 上传多个图像，并且工作正常，直到我想为每个图像插入品牌和网址。我遇到的唯一问题是，当我要从输入字段获取值时，我会从服务器获取来自字段(品牌、网址)的未定义值，但如果我使用静

首页

博学

6Ren·AI

商城

hadoop - hadoop中的输入拆分和 block