hadoop - 驱动程序内存、执行程序内存、驱动程序内存开销和执行程序内存开销对作业运行成功的 Apache Spark 影响

转载作者：IT王子更新时间：2023-10-28 23:29:12

25

4

我正在 YARN 上对我的 Spark 作业进行一些内存调整，我注意到不同的设置会产生不同的结果并影响 Spark 作业运行的结果。但是，我很困惑，不完全理解为什么会发生这种情况，如果有人可以为我提供一些指导和解释，我将不胜感激。

我将提供一些背景信息并发布我的问题并描述我在下面遇到的案例。

我的环境设置如下:

内存 20G，每个节点 20 个 VCore(共 3 个节点)
Hadoop 2.6.0
Spark 1.4.0

我的代码递归过滤 RDD 以使其更小(作为算法的一部分删除示例)，然后执行 mapToPair 和 collect 以收集结果并将它们保存在列表中。

问题

为什么在第一种情况和第二种情况之间会抛出不同的错误并且作业运行时间更长(对于第二种情况)，而只增加了执行程序内存？这两个错误是否以某种方式联系在一起？
第三种和第四种情况都成功了，我明白这是因为我提供了更多的内存来解决内存问题。但是，在第三种情况下，

spark.driver.memory + spark.yarn.driver.memoryOverhead = the memory that YARN will create a JVM

= 11g + (driverMemory * 0.07, with minimum of 384m) = 11g + 1.154g = 12.154g

因此，从公式中，我可以看到我的工作需要 MEMORY_TOTAL 大约 12.154g 才能成功运行，这解释了为什么我需要超过 10g 的驱动程序内存设置。

但是对于第四种情况，

spark.driver.memory + spark.yarn.driver.memoryOverhead = the memory that YARN will create a JVM

= 2 + (driverMemory * 0.07, with minimum of 384m) = 2g + 0.524g = 2.524g

似乎只需将内存开销增加少量 1024(1g) 就可以成功运行作业，驱动程序内存仅为 2g，MEMORY_TOTAL 仅为 2.524g !而没有开销配置，小于 11g 的驱动程序内存会失败，但从公式中没有意义，这就是我感到困惑的原因。

为什么增加内存开销(对于驱动程序和执行程序)可以让我的工作以较低的MEMORY_TOTAL(12.154g 与 2.524g)成功完成？我还缺少其他一些内部工作吗？

第一种情况

/bin/spark-submit --class <class name> --master yarn-cluster --driver-memory 7g --executor-memory 1g --num-executors 3 --executor-cores 1 --jars <jar file>

如果我使用任何小于 11g 的驱动程序内存运行我的程序，我将收到以下错误，即 SparkContext 正在停止或类似的错误，即在停止的 SparkContext 上调用方法。根据我收集的信息，这与内存不足有关。

第二种情况

/bin/spark-submit --class <class name> --master yarn-cluster --driver-memory 7g --executor-memory 3g --num-executors 3 --executor-cores 1 --jars <jar file>

如果我使用相同的驱动程序内存但更高的执行程序内存运行程序，则作业运行时间比第一种情况更长(大约 3-4 分钟)，然后它会遇到与之前不同的错误，即容器请求/使用超过允许的内存，因此被杀死。虽然我觉得这很奇怪，因为执行器内存增加了，并且发生了这个错误而不是第一种情况下的错误。

第三种情况

/bin/spark-submit --class <class name> --master yarn-cluster --driver-memory 11g --executor-memory 1g --num-executors 3 --executor-cores 1 --jars <jar file>

驱动程序内存大于 10g 的任何设置都将导致作业能够成功运行。

第四种情况

/bin/spark-submit --class <class name> --master yarn-cluster --driver-memory 2g --executor-memory 1g --conf spark.yarn.executor.memoryOverhead=1024 --conf spark.yarn.driver.memoryOverhead=1024 --num-executors 3 --executor-cores 1 --jars <jar file>

使用此设置，作业将成功运行(驱动程序内存 2g 和执行程序内存 1g，但会增加驱动程序内存开销(1g)和执行程序内存开销(1g)。

任何帮助都将不胜感激，并且对我对 Spark 的理解很有帮助。提前致谢。

最佳答案

您的所有案例都使用

--executor-cores 1

最好超过 1。不要超过 5。根据我们的经验和 Spark 开发人员的建议。

例如 http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/:

A rough guess is that at most five tasks per executor 
can achieve full write throughput, so it’s good to keep 
the number of cores per executor below that number

我现在找不到推荐每个执行程序超过 1 个内核的引用。但想法是在同一个执行程序中运行多个任务使您能够共享一些公共(public)内存区域，因此它实际上可以节省内存。

从 --executor-cores 2 开始，双倍 --executor-memory (因为 --executor-cores 还告诉一个执行器将同时运行多少个任务)，看看它对你有什么作用。就可用内存而言，您的环境是紧凑的，因此使用 3 或 4 会为您提供更好的内存利用率。

我们使用 Spark 1.5 并在很久以前停止使用 --executor-cores 1，因为它会产生 GC 问题；它看起来也像一个 Spark 错误，因为仅仅提供更多内存并没有像切换到每个容器有更多任务那样有帮助。我猜同一执行器中的任务可能会在不同时间达到其内存消耗的峰值，因此您不必浪费/不必为了使其工作而过度配置内存。

另一个好处是，Spark 的共享变量(累加器和广播变量)每个执行程序只有一个副本，而不是每个任务——因此，每个执行程序切换到多个任务可以直接节省内存。即使您没有明确使用 Spark 共享变量，Spark 也很可能会在内部创建它们。例如，如果您通过 Spark SQL 连接两个表，Spark 的 CBO 可能会决定广播一个较小的表(或较小的数据帧)以使连接运行得更快。

http://spark.apache.org/docs/latest/programming-guide.html#shared-variables

关于hadoop - 驱动程序内存、执行程序内存、驱动程序内存开销和执行程序内存开销对作业运行成功的 Apache Spark 影响，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32292414/

25

4

0

文章推荐：安卓; MapView，如何设置默认位置？

文章推荐： android - list 中的使用功能加速度计

文章推荐： android - 如何使用 DatePickerDialog 作为首选项

jQuery AJAX 成功
我正在使用 jQuery 的 $.ajax 函数来提交表单，它可以工作，但成功正是我遇到问题的地方。这是我的代码: $("#form").submit(function () { $.
javascript - 取消ajax()成功
我正在使用动态分页。我需要在开始另一个事件之前取消 jQuery ajax 中的 success 事件。我已经设置了一个等于$.ajax()的变量，在这样做之前，无论如何我都会调用abort。问
jquery - AJAX查询错误/成功
如果我错了，请纠正我，但我对 $.post 成功/失败的理解是，如果 url 有效，这将返回成功。唯一会返回失败的情况是 url 无效。如果这是真的，我如何验证成功函数？我问的原因是无论发生什么，即
CreateFile() 成功，但文件不在磁盘上。
HANDLE hFile = CreateFile(LPCTSTR("filename"), // name of the write
android - SmsManager 成功
我正在使用以下代码发送短信。但这似乎不会在未发送短信时产生异常。例如，当没有足够的钱发送时，我仍然会去 smsSucces();有没有人知道解决此问题的方法以确保它已发送？ private b
c# - 日期时间转换在不同计算机上失败/成功
我正在尝试将字符串转换为 DateTime，在一台计算机上，它工作正常，但在另一台计算机上，它却不行!它运行的计算机运行的是 32 位 Windows 7，它不运行的计算机运行的是 64 位 Wind
jQuery 成功/错误函数
我在页面上使用表单让用户输入将用于各种目的的图像的 url。我正在编写一个 ajax 方法来确定他们提供的 url 是否实际上是图像。到目前为止，我已经这样做了: $(document).on('re
PHP Ajax 成功
我在 jquery 中对 php 脚本进行 ajax 调用。但是 php 脚本需要返回什么才能触发 ajax 中的成功/错误处理程序。所以这是 ajax: $.ajax({ data:
mediaelement.js setMuted() 成功
几个简单的问题: 对于 native 和 Flash/Silverlight 垫片来说，成功事件是“规范化”事件吗？记录的示例表明它仅适用于 Flash/Silverlight 对象准备就绪的情况。
php - PDO 成功，但什么都不返回？
这个问题不太可能对任何 future 的访客有帮助；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于互联网的全局受众。如需帮助使这个问题更广泛适用，visit the h
grails - 让 Groovy 成功!
我尝试使用新的 Groovy Grape Groovy 1.6-beta-2 中的功能，但我收到一条错误消息； unable to resolve class com.jidesoft.swing.J
reactjs - 等待所有的 promise 成功
我正在使用 sequelize/nodejs/express/react 将实体持久化到 postgres 数据库我有两个主要模型，国家和事件，我正在使用该应用程序，并且有一个名为“保存到数据库”的
jquery - 成功 jQuery 验证后启用禁用按钮
我有以下代码，其中有 2 个电子邮件输入字段，我需要验证它们是否相同，并且使用 jQuery validate equalTo 成功运行。 Email Address
reactjs - 成功 saga 后更改路线
我正在尝试找出解决此问题的正确方法。假设我们有一家元素商店。这些项目可以编辑、删除和创建。编辑或添加项目时，路线更改为/item/add 或/item/edit/{id}。在 saga 成功添加或
javascript - 设置 var 成功
这个问题已经有答案了: How do I return the response from an asynchronous call? (42 个回答) 已关闭 8 年前。我有这段代码，警报工作正常
php - 如何使用PHP处理向用户发送的站点反馈消息(成功/错误)？
Closed. This question needs to be more focused。它当前不接受答案。想改善这个问题吗？更新问题，使其仅关注editing this post的一个问题。
javascript - 成功 ajax 调用后删除点击范围
我想在单击超链接 (.remove_resort) 时(成功的 ajax 调用后)删除超链接的(父)跨度。虽然ajax调用成功，但是最后span并没有被移除。这里出了什么问题？请记住:有几个类
winapi - ClipCursor 成功，但实际上什么也没做
我正在编写一个非常简单的程序来将鼠标剪辑到指定的窗口。它从系统托盘运行，没有可见窗口。由于同一窗口会有多个实例，因此它使用 EnumWindows() 迭代每个顶级窗口，并将它们的 hwnd 与 Ge
javascript - if 语句显示 Angular 成功
我正在尝试找出如何执行 if 语句，以便如果玩家的击球率超过 0.250，则会为成功的 tr 添加一个类别。我发现了以下堆栈问题，但我不确定可以使用或应该使用哪种方式以及如何使用这些堆栈问题。 ht
Prolog 大于/2 成功
我是 Prolog 的新手，我正在尝试解决这个练习: Define a predicate greater_than/2 that takes two numerals in the notation

首页

博学

6Ren·AI

商城

hadoop - 驱动程序内存、执行程序内存、驱动程序内存开销和执行程序内存开销对作业运行成功的 Apache Spark 影响

问题

第一种情况

第二种情况

第三种情况

第四种情况