hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？-6ren

hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？

转载作者：可可西里更新时间：2023-11-01 15:01:43

我正在研究在 hadoop 中使用 mapreduce 的矩阵乘法示例。我想问一下，溢出记录是否应该始终等于 mapinput 和 mapoutput 记录。我有不同于 mapinput 和 mapoutput 记录的溢出记录

这是我得到的其中一项测试的输出:

Three by three test
   IB = 1
   KB = 2
   JB = 1
11/12/14 13:16:22 INFO input.FileInputFormat: Total input paths to process : 2
11/12/14 13:16:22 INFO mapred.JobClient: Running job: job_201112141153_0003
11/12/14 13:16:23 INFO mapred.JobClient:  map 0% reduce 0%
11/12/14 13:16:32 INFO mapred.JobClient:  map 100% reduce 0%
11/12/14 13:16:44 INFO mapred.JobClient:  map 100% reduce 100%
11/12/14 13:16:46 INFO mapred.JobClient: Job complete: job_201112141153_0003
11/12/14 13:16:46 INFO mapred.JobClient: Counters: 17
11/12/14 13:16:46 INFO mapred.JobClient:   Job Counters
11/12/14 13:16:46 INFO mapred.JobClient:     Launched reduce tasks=1
11/12/14 13:16:46 INFO mapred.JobClient:     Launched map tasks=2
11/12/14 13:16:46 INFO mapred.JobClient:     Data-local map tasks=2
11/12/14 13:16:46 INFO mapred.JobClient:   FileSystemCounters
11/12/14 13:16:46 INFO mapred.JobClient:     FILE_BYTES_READ=1464
11/12/14 13:16:46 INFO mapred.JobClient:     HDFS_BYTES_READ=528
11/12/14 13:16:46 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=2998
11/12/14 13:16:46 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=384
11/12/14 13:16:46 INFO mapred.JobClient:   Map-Reduce Framework
11/12/14 13:16:46 INFO mapred.JobClient:     Reduce input groups=36
11/12/14 13:16:46 INFO mapred.JobClient:     Combine output records=0
11/12/14 13:16:46 INFO mapred.JobClient:     Map input records=18
11/12/14 13:16:46 INFO mapred.JobClient:     Reduce shuffle bytes=735
11/12/14 13:16:46 INFO mapred.JobClient:     Reduce output records=15
11/12/14 13:16:46 INFO mapred.JobClient:     Spilled Records=108
11/12/14 13:16:46 INFO mapred.JobClient:     Map output bytes=1350
11/12/14 13:16:46 INFO mapred.JobClient:     Combine input records=0
11/12/14 13:16:46 INFO mapred.JobClient:     Map output records=54
11/12/14 13:16:46 INFO mapred.JobClient:     Reduce input records=54
11/12/14 13:16:46 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
11/12/14 13:16:46 INFO input.FileInputFormat: Total input paths to process : 1
11/12/14 13:16:46 INFO mapred.JobClient: Running job: job_local_0001
11/12/14 13:16:46 INFO input.FileInputFormat: Total input paths to process : 1
11/12/14 13:16:46 INFO mapred.MapTask: io.sort.mb = 100
11/12/14 13:16:46 INFO mapred.MapTask: data buffer = 79691776/99614720
11/12/14 13:16:46 INFO mapred.MapTask: record buffer = 262144/327680
11/12/14 13:16:46 INFO mapred.MapTask: Starting flush of map output
11/12/14 13:16:46 INFO mapred.MapTask: Finished spill 0
11/12/14 13:16:46 INFO mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the process of commiting
11/12/14 13:16:46 INFO mapred.LocalJobRunner:
11/12/14 13:16:46 INFO mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.
11/12/14 13:16:46 INFO mapred.LocalJobRunner:
11/12/14 13:16:46 INFO mapred.Merger: Merging 1 sorted segments
11/12/14 13:16:46 INFO mapred.Merger: Down to the last merge-pass, with 1 segments left of total size: 128 bytes
11/12/14 13:16:46 INFO mapred.LocalJobRunner:
11/12/14 13:16:46 INFO mapred.TaskRunner: Task:attempt_local_0001_r_000000_0 is done. And is in the process of commiting
11/12/14 13:16:46 INFO mapred.LocalJobRunner:
11/12/14 13:16:46 INFO mapred.TaskRunner: Task attempt_local_0001_r_000000_0 is allowed to commit now
11/12/14 13:16:46 INFO output.FileOutputCommitter: Saved output of task 'attempt_local_0001_r_000000_0' to hdfs://localhost:9000/tmp/MatrixMultiply/out
11/12/14 13:16:46 INFO mapred.LocalJobRunner: reduce > reduce
11/12/14 13:16:46 INFO mapred.TaskRunner: Task 'attempt_local_0001_r_000000_0' done.
11/12/14 13:16:47 INFO mapred.JobClient:  map 100% reduce 100%
11/12/14 13:16:47 INFO mapred.JobClient: Job complete: job_local_0001
11/12/14 13:16:47 INFO mapred.JobClient: Counters: 14
11/12/14 13:16:47 INFO mapred.JobClient:   FileSystemCounters
11/12/14 13:16:47 INFO mapred.JobClient:     FILE_BYTES_READ=89412
11/12/14 13:16:47 INFO mapred.JobClient:     HDFS_BYTES_READ=37206
11/12/14 13:16:47 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=37390
11/12/14 13:16:47 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=164756
11/12/14 13:16:47 INFO mapred.JobClient:   Map-Reduce Framework
11/12/14 13:16:47 INFO mapred.JobClient:     Reduce input groups=9
11/12/14 13:16:47 INFO mapred.JobClient:     Combine output records=9
11/12/14 13:16:47 INFO mapred.JobClient:     Map input records=15
11/12/14 13:16:47 INFO mapred.JobClient:     Reduce shuffle bytes=0
11/12/14 13:16:47 INFO mapred.JobClient:     Reduce output records=9
11/12/14 13:16:47 INFO mapred.JobClient:     Spilled Records=18
11/12/14 13:16:47 INFO mapred.JobClient:     Map output bytes=180
11/12/14 13:16:47 INFO mapred.JobClient:     Combine input records=15
11/12/14 13:16:47 INFO mapred.JobClient:     Map output records=15
11/12/14 13:16:47 INFO mapred.JobClient:     Reduce input records=9
...........X[0][0]=30, Y[0][0]=9
Bad Answer
...........X[0][1]=36, Y[0][1]=36
...........X[0][2]=42, Y[0][2]=42
...........X[1][0]=66, Y[1][0]=24
Bad Answer
...........X[1][1]=81, Y[1][1]=81
...........X[1][2]=96, Y[1][2]=96
...........X[2][0]=102, Y[2][0]=39
Bad Answer
...........X[2][1]=126, Y[2][1]=126
...........X[2][2]=150, Y[2][2]=150

这里描述了这个例子和代码:

http://www.norstad.org/matrix-multiply/index.html

你能告诉我问题出在哪里吗？我该如何解决？谢谢

工作人员

最佳答案

根据 Hadoop:权威指南，“溢出记录”计算作业过程中溢出到磁盘的记录总数，包括 map 和 reduce 端溢出。 “溢出记录”计数可能为零，这完全没问题。通常，溢出的记录意味着您已经超出了映射输出缓冲区中可用的内存量。拥有少量“溢出记录”通常不是问题。可用 RAM 的设置是 mapred-site.xml 中的 io.sort.mb 和 io.sort.spill.percent。如果性能是一个问题，您可能希望调整这些以尽量减少溢出的记录。介绍Optimizing MapReduce Job Performance有更多详细信息，特别是幻灯片 #12 和 #13。如果溢出不止一次，那么由于需要合并溢出，您需要支付 3 倍的 IO 罚款。如果“溢出记录”大于“映射输出记录”+“减少输出记录”，那么您正在做不止一次溢出。请注意，RAM 的数量最终受限于 Java VM 的堆大小，因此您可能需要增加集群大小或通过增加给定作业的输入拆分来增加 map 任务的数量，以减少溢出次数。

在您的具体示例中，“Spilled Records”更大，因此您不止一次溢出。

关于hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8504611/

文章推荐： html - 将文本和按钮定位在图像上的特定位置

文章推荐： java - 从节点可以运行Hadoop Map/Reduce Job吗？

文章推荐： css - 如何在 Safari 上隐藏::cue 伪元素的背景？

javascript - 为什么 ~-1 等于 0 而 ~1 等于 -2？
根据小节 11.4.8 ECMAScript 5.1 标准: The production UnaryExpression : ~ UnaryExpression is evaluated as fo
php - MySQL REPLACE 行，其中字段 a 等于 x，字段 b 等于 y
我正在尝试构建一个“新评论”功能，向用户显示自上次访问以来的新评论数量。我构建了一个“ View ”表，其中包含主题 ID、用户 ID 和时间戳。每次用户访问该主题时更新时间戳或插入新行(如果不存在)
javascript - 为什么 !!1= ="1"等于 true 而 !!2= ="2"等于 false？
如标题所述，为什么: > !!1=="1" 等于 True 和 > !!2=="2" 等于: False 同样，为什么 > "1"==true 等于 true 而 > "2"==true 等于 fal
mysql - 混淆 "p OR q"， "p AND q"，其中 "p"等于 "false"， "q"等于 "unknown"
我在 Stack Overflow post 上看到了下图但是，我对“p OR q”、“p AND q”的结果感到困惑，其中“p”等于“false”，“q”等于“unknown”。在图中，“p O
mysql - 如果使用 MYSQL MARIADB，column1 中的 key1 等于 value1 并且 key2 等于 column2 中的 value2，如何在两列中进行搜索？
一栏有效 whereJsonContains('VehicleApplications' ,['ModelName' => $model, 'YearID' => $year] )->
mysql - 从故事中选择项目，其中 story.uid 等于 uid 或 story.uid 等于 friend.uid 或 friend.fid 并被接受
如果满足条件，我如何才能只获取特定记录？我有代码为 "SELECT a.id, a.text, a.uid, a.time FROM story a INNER JOIN friends b
MongoDB 等于
我正在尝试运行 MongoDB 查询并返回字段为空的记录(更具体地说，在 pyMongo 中为 None)。所以它必须等于 null。我知道这不等于: {"firstName": {"$ne": N
Java - HashCode - 等于
我在 Java 中进行单元测试时遇到问题。我把我的代码和错误放在这里。在互联网上我发现这是哈希码的问题。我需要重新创建它们，但我不知道为什么以及如何。我的方法: public void setGr
javascript - typescript 等于
如何在 Typescript 中实现 equals？我尝试了几种方法，都没有奏效。选项1: abstract class GTreeObject{ abstract equals(obj:
Java 对象的数组列表包含/等于
我查看了很多地方，大多数 arraylist 示例都使用“String”作为元素，但是很难找到使用对象的地方。假设我正在制作一个图书 Collection ，并且我有一个作者对象: class Au
Perl5 =(等于)运算符优先级
$a,$b,$c = 1,2,3; print "$a, $b, $c\n"; 返回 , , 1 那么 = (equals) 是否比元组构造具有更高的优先级 - 这样做？ $a,$b,($c=1
c - a = i++； `a` 等于 `i` 吗？
在此代码片段中，a 和 i 分别具有什么值以及为什么？ int i = 1; int a = i++; 是a == 1还是a == 2？最佳答案 a==1。然后，i==2 如果你这样做的话，那就是a
用于循环查找之前，等于，之间和之后值的Javascript？
我觉得我遗漏了一些明显的东西。这是一个简单的例子来说明我的问题。我希望 current = 3 返回“之前”。 current = 4 应该返回“key-two”，current = 5 应该返回“
Java 对象.等于
有人能告诉我为什么这会返回 true 吗？我想如果我投一些东西给例如Object 然后调用.equals,将使用 Object 的默认实现。 s1 == s2 应该返回 false。请告诉我在哪个主
swift - UIImage 等于
我需要检查加载到 UIImage 对象文件中的文件是否等于另一个图像，如果是，则执行一些操作。不幸的是，它不起作用。 emptyImage = UIImage(named: imageName) if
无法确定是否相等时，Java 等于
我想知道什么是正确的 Java 编程范式来覆盖类 C 对象的 equals(和 hashCode)方法，在以下情况下 (a) 有没有足够的信息来确定 C 的两个实例是否相等，或者 (b) 调用方法不应
python - 为什么 (()) 等于 ()？
>>> (()) == () True >>> (()) () 最佳答案 () 是一个 0 元组。 (foo) 产生 foo 的值。因此，(()) 产生一个 0 元组。来自 the tutorial
javascript - 为什么 i += i + i++ 等于 0？
考虑这段代码: var i = 0; >> undefined i += i + i++; >> 0 i >> 0 // why not 1? 由于增量 (++) 运算符，我希望 i 为 1。我认为
Delphi XE : Where is my TValue. 等于()？
在我看来，TValue 似乎缺少一个强制方法； TValue.Equals(TValue)。那么比较 2 个 TValue 的快速且合适的方法是什么，最好不使用 TValue.ToString()，
sql - 等于 (=) 与 LIKE
使用 SQL 时，在 WHERE 子句中使用 = 代替 LIKE 有什么好处吗？如果没有任何特殊的运算符，LIKE 和 = 是相同的，对吧？最佳答案不同的运算符 LIKE 和 = 是不同的运算符

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 使用hadoop的mapreduce中溢出的记录是否应该始终等于mapinput记录或mapoutput记录？