- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
在 Hadoop 中,作业执行后会提供以下指标:
我找不到这些时间的确切定义,因为所有来源都不清楚这些时间是如何准确计算的。这是我的看法:
我不确定粗体部分。我的分析正确吗?
最佳答案
我决定研究 Hadoop 代码以获得更多见解。下图解释了我的发现。
我发现:
这些发现得到以下代码的支持:
在Shuffle类,由 ReduceTask 使用,我们看到“复制”阶段之后是“排序”阶段。
copyPhase.complete(); // copy is already complete
taskStatus.setPhase(TaskStatus.Phase.SORT);
reduceTask.statusUpdate(umbilical);
// Finish the on-going merges...
RawKeyValueIterator kvIter = null;
try {
kvIter = merger.close();
} catch (Throwable e) {
throw new ShuffleError("Error while doing final merge " , e);
}
在TaskStatus在类中,我们看到 shuffletime 是排序阶段之前的时间,排序时间是 shuffle 和 reduce 阶段之间的时间。
public void setPhase(Phase phase){
TaskStatus.Phase oldPhase = getPhase();
if (oldPhase != phase){
// sort phase started
if (phase == TaskStatus.Phase.SORT){
if (oldPhase == TaskStatus.Phase.MAP) {
setMapFinishTime(System.currentTimeMillis());
}
else {
setShuffleFinishTime(System.currentTimeMillis());
}
}else if (phase == TaskStatus.Phase.REDUCE){
setSortFinishTime(System.currentTimeMillis());
}
this.phase = phase;
}
...
在JobInfo class我们看到shuffle时间对应的是copy,merge时间就是我们上面说的“sort”时间。
switch (task.getType()) {
case MAP:
successfulMapAttempts += successful;
failedMapAttempts += failed;
killedMapAttempts += killed;
if (attempt.getState() == TaskAttemptState.SUCCEEDED) {
numMaps++;
avgMapTime += (attempt.getFinishTime() - attempt.getLaunchTime());
}
break;
case REDUCE:
successfulReduceAttempts += successful;
failedReduceAttempts += failed;
killedReduceAttempts += killed;
if (attempt.getState() == TaskAttemptState.SUCCEEDED) {
numReduces++;
avgShuffleTime += (attempt.getShuffleFinishTime() - attempt
.getLaunchTime());
avgMergeTime += attempt.getSortFinishTime()
- attempt.getShuffleFinishTime();
avgReduceTime += (attempt.getFinishTime() - attempt
.getSortFinishTime());
}
}
更多关于 reduce 和 map 任务如何工作的信息可能来自类 MapTask和 ReduceTask , 分别。
最后,我想指出,我在链接中引用的源代码主要对应于 Hadoop 2.7.1 代码。
关于hadoop - Hadoop 中 map、shuffle、merge 和 reduce 时间的精确定义,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34175386/
我正在尝试复制以下 while 循环,但它们交错我的“卡片”的方式有所不同。 这是我当前有效的 while 循环,我的目标是重新创建此循环,但颠倒两个 card_force 数组的顺序: while
我有以下 Spark 作业,试图将所有内容保留在内存中: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(St
我最近开始学习 tensorflow。 我不确定是否有区别 x = np.array([[1],[2],[3],[4],[5]]) dataset = tf.data.Dataset.from_ten
我想重置 pyspark 代码中的 spark.sql.shuffle.partitions 配置,因为我需要加入两个大表。但是以下代码在最新的spark版本中不起作用,错误说“xxx中没有方法“se
我只是想验证我对这些参数及其关系的理解,如果我错了请通知我。 mapreduce.reduce.shuffle.input.buffer.percent 告诉分配给 reducer 的整个洗牌阶段的内
假设我的数据库中有 10 个项目正在尝试洗牌,我如何更改当前的代码,以便每次从数据库中提取一个名称时,一次显示一个名称,而不是全部显示一次? $con = mysqli_connect("XXX",
1.概述 转载:Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务 2.开源 作为支持 Flink 流批一体与云原生的重要组成部分,Flink Remote
这个 fiddle 演示了我的问题:https://jsfiddle.net/petebere/fhg84je2/ 我想确保每次用户单击按钮时都会显示数组中的随机元素。问题是,有时进行新的混洗时,新混
对于那些了解情况的人来说,这应该是一个足够简单的问题 - 为什么我会在控制台中收到此错误?我尝试按照 Shuffle homepage 上“用法”下显示的代码进行操作但我认为该页面忽略了包含开始使用该
在下面的 Spark admin 在端口 8080 上运行的屏幕截图中: 此代码的“随机读取”和“随机写入”参数始终为空: import org.apache.spark.SparkContext;
docs说“所有排列的发生概率大致相等。”但我不知道这是否包括返回相同订单的可能性(无论多么小)。我有一个方法(见下文),在两次测试运行期间,列表以原始顺序返回,也许……其他因素可能有问题,比如可能已
我有一份处理大量数据的工作。此作业经常运行而没有任何错误,但偶尔会引发此错误。我正在使用 Kyro Serializer。 我正在使用 yarn 集群运行 Spark 1.2.0。 完整的堆栈跟踪在这
我正在 EC2 集群上部署 Spark 数据处理作业,该作业对于集群来说很小(16 个核心,总共 120G RAM),最大的 RDD 只有 76k+ 行。但是中间严重倾斜(因此需要重新分区)并且每
打乱数据的 spark sql 聚合操作,即 spark.sql.shuffle.partitions 200(默认情况下)。当 shuffle partition 大于 200 时,性能会发生什么变
打乱数据的 spark sql 聚合操作,即 spark.sql.shuffle.partitions 200(默认情况下)。当 shuffle partition 大于 200 时,性能会发生什么变
当在 Python 3 中使用 random 模块 random.shuffle(list(range(n))) 时,但是 random.shuffle(range( n)) 没有。 为什么会这样?
当我尝试在 pycaret 中训练某些东西时,我收到此错误消息 ValueError: Setting a random_state has no effect since shuffle is Fa
我正在以推测模式运行 Spark 作业。我有大约 500 个任务和大约 500 个 1 GB gz 压缩文件。我不断地进入每项作业,对于 1-2 个任务,附加错误,然后它会重新运行数十次(阻止作业完成
作为Django中关键字云函数的一部分,我正在尝试输出字符串列表。是否有模板过滤器,可让您随机播放列表中的项目?我认为这很简单,但是我在官方文档中找不到任何适用的过滤器。 最佳答案 制作自己的东西很简
同时思考this问题并与参与者交谈后,出现了这样的想法:对一组有限的明显有偏见的随机数进行洗牌,使它们变得随机,因为你不知道它们被选择的顺序。这是真的吗?如果是的话,有人可以指出一些资源吗? 编辑:我
我是一名优秀的程序员,十分优秀!