Hadoop:MR 启动的映射器比指定的少-6ren

Hadoop:MR 启动的映射器比指定的少

转载作者：可可西里更新时间：2023-11-01 15:16:28

27

4

我在一台远程机器(四核超线程)上安装了 Hadoop 1.2.1，并且正在用 1GB 的文件(一个文件，未压缩)测试 MR 的性能

当我将拆分大小设置为大约 250MB 时，我有四个映射器。在输出文件 (_logs/history/job....) 中，我看到上面写着 TOTAL MAP TASKS = 4

但是，当我将拆分大小设置为 1GB/8 以便它使用 8 个内核时，我看到日志显示 TOTAL MAP TASKS = 7。当拆分大小为 1GB/16 以查看发生了什么时，日志显示 TOTAL MAP TASKS = 14。是因为jobtracker指定了一个core不能用吗？

最佳答案

不幸的是，大多数可能影响 map task 数量的参数更接近于“建议”，而不是硬性规定。由 InputFormat 决定它与这些参数的接近程度。例如，FileInputFormat 执行以下操作:

它计算一个 splitSize 基于:Math.max(minSize, Math.min(maxSize, blockSize))。对于每个文件，它计算该大小的分割数将覆盖它。例如，如果拆分大小为 1 GB，并且您有两个大小为 1.5 GB 和 2.5 GB 的文件，您将获得 2 + 3 = 5 次拆分。但是，当接近文件末尾时，它有时会将这些拆分最多拉伸(stretch) 10%。例如，5.1 GB 文件的 1 GB 拆分大小将使用 5 个拆分。基于特定的子类实现，还有一些其他注意事项。

我的观点是，确实存在一些捏造行为，但这通常是合理的行为。您应该将您设置的参数视为准则，并相信您使用的 InputFormat 在确定要运行多少映射器时正在做一些合理的事情。

不，它与核心数或任务槽数无关。这可能会影响可以同时运行的映射器数量，但不会影响映射任务的总数。

关于Hadoop:MR 启动的映射器比指定的少，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20382515/

27

4

0

文章推荐： c++ - C++ 中的位字段有多慢

文章推荐： c++ - 按值传递的返回类型多态性

文章推荐： azure - Hive 在 HDInsight 中的位置

css - "There is no no-color option ("少 --help "for help)"少
我一直在使用 less 进行前端开发，但最近几天我遇到了这个错误。我正在使用 PhpStorm 的观察器将 less 文件编译为 css 文件。但是当我编辑 less 文件时，编译器将这一行添加到
process - 为什么Erlang进程创建和消息传递时间比java和C#少
我在互联网上搜索Erlang的流程模型并找到了一些图表 slides 3-4在乔·阿姆斯特朗的一次演讲中。它们显示了 Erlang、java 和 C# 之间进程创建和消息传递时间之间的许多差异。谁能告
少 css & :hover
我怎样才能用更少的钱创建这个类？ .class { display: none; } a:hover .class { display: block; } 最佳答案像这样？ .cla
css - 输出 % 少
全部，我有一些代码在 less 中做一个循环。但是如果我把px改成'%'，less就不能编译less文件。我该怎么做呢？谢谢。 @iterations: 100; // helper class, w
css - 少&+&不扩
According to the docs如果我做类似的事情: .child, .sibling { .parent & { color: black; } &
少 CSS : selector substitution?
这是一个现有的通用 css 规则(原始文件): .caption-top { color: red; } 这是示意图，因为在现实生活中，我需要根据上下文将 .caption-top 选择器变成其他
Java MSAccess DSN 少
所以问题是我想连接到msaccess 数据库，每次打开它时都有密码。如果我直接打开 Access 文件，密码就有效。如果我删除密码，我可以建立连接，这意味着如果不涉及密码，我的代码可以工作密码是
css - 少@import 不工作
news.less 看起来像这样； @import: "libs/base.less" base.less 看起来像这样； @import "colors.less"; @
css - 少 ParseError : Unrecognised input
当我在这里使用 WINLess 编译这段代码时出现错误: .icon-text-shadow (@icon-text-shadow: 0.0625rem 0.0625rem rgba(132, 108
python - 为什么我的 NumPy 数组占用的内存比应有的少*少*？
我正在处理大型矩阵，例如 Movielens 20m dataset .我重组了在线文件，使其与页面上提到的尺寸(138000 x 27000)相匹配，因为原始文件包含的索引更大(138000 x 1
php - C++ 的功能是否比 PHP 少？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
android - Drawable 占用的内存是否比 Bitmap 少？
我是 Android 新手，刚来这里。我只知道 Bitmap 逐像素存储图像并且不进行任何压缩。 Drawable和Bitmap一样吗？或者同样的图片文件，Drawable 比 Bitmap 占
php - 少/sass 与 php
我是一名前端开发人员，最近考虑使用 SASS 或 LESS 进行 CSS 开发。不过，我不使用 Ruby，也不想依赖于使用 JavaScript 的用户。有没有人对使用 PHP 项目使用 SASS
twitter-bootstrap - Bootstrap : How to add dropdown. 少？
我需要将日历添加到表单中。我想安装这个项目: https://github.com/vitalets/bootstrap-datepicker 但据说: 某些样式需要 Bootstrap 的下拉组件
r - 为什么 runif() 的唯一值比 rnorm() 少？
如果您运行如下代码: length(unique(runif(10000000))) length(unique(rnorm(10000000))) 你会看到只有大约 99.8% 的 runif 值是
java - Java TreeSet 使用的内存是否比 PriorityQueue 少？
我正在这样做Question首先使用 PriorityQueue 解决了这个问题:- public ArrayList solve(int A, int B, int C, int D) {
java - 是否有一种数据类型在 2 个字母中使用的存储空间比 String 少？
基本上就是标题所说的。我知道如果我只有一个字母，我可以使用 char 作为类型，但我需要 2 个字母的数据类型，例如“XY”。有没有比字符串使用更少存储空间(位)或更小的东西？或者多个字母通常只是保存
mysql - 多(少)对多(实际上太多)关系的数据库设计
我有两个表，用户表和程序表。现在我只有 5-10 个计划和数以万计的用户，他们可以注册任何一个计划(也可以注册多个计划)。因此，在多对多关系的情况下，我正在考虑创建一个单独的表，例如 link_use
css - 少 CSS : driving includes through parameters
我们有一个基于 LESS 的样式表，我们希望为其生成多种颜色变化。我们已经定义了一个包含颜色变化(现在为 blue.less)的包含文件，并希望生成和使用该包含文件的绿色和红色变化。我们想要做的是通
css - 少/CSS : Avoid many LOC?
我想知道我是否可以改进我的 LESS-Snippet。我有很多带有颜色名称的变量/我自己的颜色标题和相关的前景和背景颜色。我根据我的颜色定义类名称。 @logocolorgreen: #40FF01;

首页

博学

6Ren·AI

商城

Hadoop:MR 启动的映射器比指定的少