hadoop - Spark :What is the ideal number of reducers-6ren

hadoop - Spark :What is the ideal number of reducers

转载作者：可可西里更新时间：2023-11-01 15:11:11

27

4

我的数据大约是300G。如果我使用 Hadoop 对其执行 reduce 作业，180 个 reduce 插槽就可以了，队列中没有任务等待。

如果我使用具有相同数量的 reduce 槽的 Spark 执行此操作，它会在洗牌阶段卡住，而如果我使用更多的槽(比如 4000)就不会发生这种情况，但这将以低效率结束。

有什么我可以做的，比如调整参数，以便我可以使用与 hadoop 相同的插槽？

顺便说一句，我的集群有 15 个节点，每个节点有 12 个核心

最佳答案

Shuffle Operation in Hadoop and Spark是关于该主题的好读物。一些引述:

Each map task in Spark writes out a shuffle file (operating system disk buffer) for every reducer – this corresponds to a logical block in Spark. These files are not intermediary in the sense that Spark does not merge them into larger partitioned ones. Since scheduling overhead in Spark is much lesser, the no. of mappers (M) and reducers(R) is far higher than in Hadoop. Thus, shipping M*R files to the respective reducers could result in significant overheads.

A major difference between Hadoop and Spark is on the reducer side – Spark requires all shuffled data to fit into memory of the corresponding reducer task (we saw that Hadoop had an option to spill this over to disk).

It does look like Hadoop shuffle is much more optimized compared to Spark’s shuffle from the discussion so far. However, this was the case and researchers have made significant optimizations to Spark w.r.t. the shuffle operation. The two possible approaches are 1. to emulate Hadoop behavior by merging intermediate files 2. To create larger shuffle files 3. Use columnar compression to shift bottleneck to CPU.

在Optimizing Shuffle Performance in Spark得出了类似的结论:

By identifying the shuffle phase bottlenecks specific to Spark,we have explored several alternatives to mitigate the operatingsystem overheads associated with these bottlenecks. The most fruitful of which is shuffle file consolidation, asimple solution that led to a 2x improvement in overall jobcompletion time.

所以你看，Hadoop/YARN 不能直接与 Spark 进行比较，特别是在 shuffle 和 reduce 方面。与 Hadoop 不同，Spark 需要特定的优化技术。您的情况究竟需要什么很难猜测。但我的印象是，您只是略过问题的表面，简单地调整 Spark 中的 reducer 数量并不能解决问题。

关于hadoop - Spark :What is the ideal number of reducers，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39118499/

27

4

0

文章推荐： hadoop - 没有 HDFS 的 NoSQL

文章推荐： http - 206 部分未缓存

文章推荐： http - 具有 HTTP2 前端和 HTTP1.1 后端的 HAProxy

文章推荐： string - 有没有办法在 hadoop 中为字符串添加定界符？

angular - 错误 : Type '[number] | [number, number, number, number]' is not assignable to type '[number]'
从 angular 5.1 更新到 6.1 后，我开始从我的代码中收到一些错误，如下所示: Error: ngc compilation failed: components/forms/utils.
typescript :number[] 和 [number,number] 有什么区别？
我正在学习 Typescript 并尝试了解类型和接口(interface)的最佳实践。我正在玩一个使用 GPS 坐标的示例，想知道一种方法是否比另一种更好。 let gps1 : number[];
javascript - 类型 'number[]' 缺少类型 '[number, number, number, number]' 的以下属性 : 0, 1、2、3
type padding = [number, number, number, number] interface IPaddingProps { defaultValue?: padding
c - : number = number + 10; and number += 10; 之间的区别
这两种格式在内存中保存结果的顺序上有什么区别吗？ number = number + 10; number += 10; 我记得一种格式会立即保存结果，因此下一行代码可以使用新值，而对于另一种格式，
python重新匹配组: number after\number
在 Python 匹配模式中，如何匹配像 1 这样的文字数字在按数字反向引用后 \1 ？我尝试了 \g用于此目的的替换模式中可用的语法，但它在我的匹配模式中不起作用。我有一个更大的问题，我想使用一
javascript - 将字符串 ">number<"转换为 ">number<"
我的源文件here包含 HTML 代码，我想将电话号码更改为可在我的应用程序中单击。我正在寻找一个正则表达式来转换字符串 >numbernumber(\d+)$1numbernumber<"，我们在S
Javascript/html : How to generate random number between number A and number B?
我们有一个包含 2 个字段和一个按钮的表单。我们想要点击按钮来输出位于 int A 和 int B 之间的随机整数(比如 3、5 或 33)？ (不需要使用 jQuery 或类似的东西) 最佳答案你
javascript - 类型 '(priority1: number, priority2: number) => number' 的参数不可分配给类型 '(a: unknown, b: unknown) => number' 的参数
我收到以下类型错误(TypeScript - 3.7.5)。 error TS2345: Argument of type '(priority1: number, priority2: number
google-apps-script - 找不到方法 getRange(number,number,number,(class))
只想创建简单的填充器以在其他功能中使用它: function fillLine(row, column, length, bgcolor) { var sheet = SpreadsheetApp
java - java中的输出(printf)中的终止符(number).(number)[a](number)[d0]是什么意思？
我有一个问题。当我保存程序输出的 *.txt 时，我得到以下信息:0.021111111111111112a118d0 以及更多的东西。问题是: 这个数字中的“d0”和“a”是什么意思？我不知道“
algorithm - 数字金字塔算法 : Numbers 1-15 in a pyramid where each number is the difference of the subjacent numbers
首先:抱歉标题太长了，但我发现很难用一句话来解释这个问题；)。是的，我也四处搜索(这里和谷歌)，但找不到合适的答案。所以，问题是这样的: 数字 1-15 将像这样放在金字塔中(由数组表示):
r - 提取模式 "number/number"
我想从字符串中提取血压。数据可能如下所示: text <- c("at 10.00 seated 132/69", "99/49", "176/109", "10.12 I 128/51, II 1
Bash 算术 $number != $((number))
当尝试执行一个简单的 bash 脚本以将前面带有 0 的数字递增 1 时，原始数字被错误地解释。 #!/bin/bash number=0026 echo $number echo $((number
typescript - [number, number] 类型的初始值
我有一个类型为 [number, number] 的字段，TypeScript 编译器(strict 设置为 true)出现问题，提示初始值值(value)。我尝试了以下方法: public shee
ruby - 正则表达式数组(["number"， "number"，...])
你能帮我表达数组吗:["232","2323","233"] 我试试这个:/^\[("\d{1,7}")|(,"\d{1,7}")\]$/ 但是这个表达式不能正常工作。我使用 ruby(rail
c++ - (number & -number) 在位编程中是什么意思？
这个问题在这里已经有了答案: meaning of (number) & (-number) (4 个回答) 关闭6年前. 例如: int get(int i) { int res = 0;
counter - 如何在 Berkeley DB 中对 Map> 建模
我正在考虑使用 Berkeley DB作为高度并发的移动应用程序后端的一部分。对于我的应用程序，使用 Queue对于他们的记录级别锁定将是理想的。但是，如标题中所述，我需要查询和更新概念建模的数据，如
javascript - 重复出现的数字 : How to get a non-rounded recurring number when dividing a number by another number?
我正在尝试解决涉及重复数字的特定 JavaScript 练习，为此我需要将重复数字处理到大量小数位。目前我正在使用: function divide(numerator, denominator){
typescript - 错误 : Type 'number | undefined' is not assignable to type 'number | { valueOf(): number; }' ?
我有这个数组类型: interface Details { Name: string; URL: string; Year: number; } interface AppState {
java - 在服务器 "number 1"或服务器 "number 2"上运行作业。从未在服务器上 "number 3"
我们正在使用 Spring 3.x.x 和 Quartz 2.x.x 实现 Web 应用程序。 Web 服务器是 Tomcat 7.x.x。我们有 3 台服务器。 Quartz 是集群式的，因此所有这

首页

博学

6Ren·AI

商城

hadoop - Spark :What is the ideal number of reducers