hadoop - map() 函数的调用次数与 MR Job 发出的 map 任务数之间的关系-6ren

hadoop - map() 函数的调用次数与 MR Job 发出的 map 任务数之间的关系

转载作者：可可西里更新时间：2023-11-01 16:27:18

26

4

我写了一个MR程序来估计PI(3.141592.........)如下，但是我遇到了一个问题:

框架发出的 map 任务数是 11，下面是输出(总共 35 行)。但我预计输出是 11 行。有什么我想念的吗？

圆圈 78534096围圈 78539304圈子78540871围圈 78537925圈子 78537161圈子 78544419围圈 78537045圈子 78534861圈子 78545779圆圈 78528890围圈 78540007围圈 78542686圈子 78534539圈子 78538255圈子 78543392圈子78543191围圈 78540938圈子 78534882围圈 78536155圈子 78545739围圈 78541807围圈 78540635圈子78547561圈子 78540521围圈 78541320圈子 78537605圈子78541379圆环 78540408圈子 78536238围圈 78539614圈子78539773圈子 78537169围圈 78541707围圈 78537141圆圈 78538045

//程序开始导入...

公共(public)类 PiEstimation {

    public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, LongWritable> {

            private final static Text  INCIRCLE             = new Text("INCIRCLE");
            private final static LongWritable TimesInAMap   = new LongWritable(100000000);
            private static Random random = new Random();

            public  class MyPoint {
                    private double  x = 0.0;
                    private double  y = 0.0;

                    MyPoint(double _x,double _y) {
                            this.x = _x;
                            this.y = _y;
                    }

                    public boolean inCircle() {
                            if ( ((x-0.5)*(x-0.5) + (y-0.5)*(y-0.5)) <= 0.25 )
                                    return true;
                            else
                                    return false;
                    }

                    public void setPoint(double _x,double _y) {
                            this.x = _x;
                            this.y = _y;
                    }
            }
            public void map(LongWritable key, Text value, OutputCollector<Text, LongWritable> output, Reporter reporter) throws IOException {
                            long i = 0;
                            long N = TimesInAMap.get();
                            MyPoint myPoint = new MyPoint(random.nextDouble(),random.nextDouble());
                            long sum = 0;
                            while (i < N ) {
                            if (myPoint.inCircle()) {                                           
                                sum++;
                            }
                            myPoint.setPoint(random.nextDouble(),random.nextDouble());
                            i++;
                            }
                            output.collect(INCIRCLE, new LongWritable(sum));
                            }
            }


    public static class Reduce extends MapReduceBase implements Reducer<Text, LongWritable, Text, LongWritable> {
  public void reduce(Text key, Iterator<LongWritable> values, OutputCollector<Text, LongWritable> output, Reporter reporter) throws IOException {
      long sum = 0;
      while (values.hasNext()) {
        //sum += values.next().get();
        output.collect(key, values.next());
      }
      //output.collect(key, new LongWritable(sum));
  }
  }
    public static void main(String[] args) throws Exception {
  JobConf conf = new JobConf(PiEstimation.class);
  conf.setJobName("PiEstimation");

  conf.setOutputKeyClass(Text.class);
  conf.setOutputValueClass(LongWritable.class);

  conf.setMapperClass(Map.class);
  conf.setCombinerClass(Reduce.class);
  conf.setReducerClass(Reduce.class);

  conf.setInputFormat(TextInputFormat.class);
  conf.setOutputFormat(TextOutputFormat.class);
  conf.setNumMapTasks(10);
  conf.setNumReduceTasks(1);
  FileInputFormat.setInputPaths(conf, new Path(args[0]));
  FileOutputFormat.setOutputPath(conf, new Path(args[1]));

  JobClient.runJob(conf);
}

最佳答案

启动的 map 任务的数量由许多因素决定 - 主要是输入格式、将输入文件分块的相关 block 大小以及输入文件本身是否“可拆分”

另外，调用 map 的次数取决于每个 map 拆分中的记录数(mapper 正在处理的数据)。

假设您有一个 100 行的文本文件用于输入 - 很可能这将由一个 Mapper 处理，但是 map 方法被调用了 100 次 - 输入文件中的每一行一次

如果您计算输入文件中的行数 - 即所有映射器调用映射的次数。很难准确确定每个 Mapper 将调用多少次 map。

关于hadoop - map() 函数的调用次数与 MR Job 发出的 map 任务数之间的关系，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9869986/

26

4

0

文章推荐： Hadoop 支持 php、ruby

文章推荐： image - 两张照片(大)具有相同字节数的几率是多少？

文章推荐： web-services - 与亚马逊网络服务集成

文章推荐： Hadoop 减少当前值与先前值的连接

javascript - 如果 source1 超时，RxJS 从 source2 发出，当 source1 返回时从 source1 发出
我有一个发出值的 Observable 源 source1，如果它没有发出任何东西超过 2 秒，我想切换到后备源 source2。如果 source1 再次发射，我想从中发射。依此类推，无限期。到目
具有相同域的电子邮件不会从 postfix 发出
我正在使用 postfix 发送电子邮件。当我将电子邮件发送到其他域时它工作正常，但是当我将电子邮件发送到配置后修复的同一个域时它不发送电子邮件。下面是我的配置: myhostname = [FQD
matplotlib - 发出 show() 后不会出现图形窗口
我最近将 ipython 和 pandas 更新为最新的稳定版本。它导致 matplotlib 中出现了一些奇怪的行为，如果我从终端运行(以前的行为)脚本，我将无法显示数字。如果我在 ipython
performance - 发出 QByteArray 效率低下吗？
我的应用程序是一个网络应用程序。它的工作是接收我想将它们作为信号发出的数据包流(QByteArray)。这样做会不会效率低下？我关心复制大缓冲区。最佳答案 QByteArray 使用 Copy-on
QTableWidget。发出 cellChanged 信号
有 QTableWidget。我需要发送带有行列和文本的 cellChanged 信号。我怎样才能做到这一点？ —— 我已经用插槽连接了信号。我需要发送信号。最佳答案您必须使用 connect
llvm - 发出 LLVM 目标文件后如何运行链接器
我编写了一个简单的玩具语言编译器前端，它使用 llvm-sys 生成 LLVM IR (LLVM 的 C library 的 Rust 绑定(bind))。然后我通过创建 LLVMTargetMach
php - 发出 POST 请求
我想知道如何像那里描述的那样发出 HTTP POST 请求 http://code.google.com/apis/documents/docs/3.0/developers_guide_protoc
GWT - 发出 GET 请求
简单的问题。我需要在 GWT 中发出一个重定向到新页面的 GET 请求，但我找不到正确的 API。有吗？我应该自己简单地形成 URL 然后做 Window.Location.replace ? (原
android - 发出 Paging3 流后无法收集任何流
我正在使用 paging3我有两个不同的寻呼源。问题是Coroutine Scope只发出第一个寻呼流在 ViewModel我有两个分页流程 val pagingFlow1 = Pager(Pagi
Docker:发出 WORKDIR 命令后如何返回初始目录
docker doc 中没有任何解释，也没有 docker 中看似任何内置变量来查找构建图像的原始工作目录。我想在不同的目录上运行命令，并在某个时候回到我启动 docker build 的位置。我
node.js - 发出 'stop'事件后如何中止异步功能
我试图使一个puppeteer.js机器人能够暂停并恢复其工作。总的来说，我有一个带有十几个异步方法的类，事件发射器和一个名为“state”的属性，该属性使用setter进行更改。当我发生事件“停止
javascript - 发出 http 请求
这个问题已经有答案了: Is it possible to send custom headers with an XHR ("Ajax" request)? (1 个回答) 已关闭 4 年前。我想
javascript - 发出 HTTP 请求而不打开新连接
如果浏览器打开与远程服务器的连接，是否可以通过 Javascript 访问同一连接？我的网络上有一个小型以太网模块，我的编程有点像这样(伪代码): private var socket while(
haskell - 发出 HTTP 请求时出现类型不匹配错误
尝试发出 HTTP 请求时，出现错误: {-# LANGUAGE OverloadedStrings #-} import Network.HTTP.Conduit -- the main modul
java - 发出 HTTPS 请求时出现问题
我有这个异步任务: public class likeTheJoke extends AsyncTask{ @Override protected Void doInBa
c - 发出 wait() 时进程终止
当进程终止并为其发出 wait() 时会发生什么？当一个子进程终止但没有人为其执行 wait() 时会发生什么？如果对尚未终止的进程执行 wait() 会发生什么情况？最佳答案如果我误解了这些问题
c - GtkButton 发出 GDK_KEY_PRESS
我尝试使用以下小部件结构、信号连接和回调将与 GtkTextView 支持的击键相关的信号(CTRL+a、CTRL+x 等)附加到工具栏按钮: typedef struct { GtkWidg
swift - 发出 Base64 解码特定字符串
我有以下 base64 编码的字符串，我需要使用 Swift 对它进行 base64 解码: KimHser2RvFf9RPjajWO4K/odT51hTlISwMKNIfPUC+gXYZKNjGDC
javascript - 发出 AJAX 请求的问题
我正在使用 Facebook Messenger webview 显示表单，在提交时，我想将消息发送回用户并关闭 webview。我现在的问题是 webview/浏览器没有发送消息就关闭了。我不知道这
android - 发出 REST 请求
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1

首页

博学

6Ren·AI

商城

hadoop - map() 函数的调用次数与 MR Job 发出的 map 任务数之间的关系