spark学习之资源调度-6ren

spark学习之资源调度

转载作者：知者更新时间：2024-03-13 03:35:31

32

4

💌前一篇博客中，我们学习了spark代码的执行过程，其中涉及到了逻辑执行计划和物理执行计划，今天我们主要来学习spark的资源调度的内容，对往期内容感兴趣的同学可以参考如下内容👇:

上一篇: spark学习之执行计划explain.
hadoop专题: hadoop系列文章.
spark专题: spark系列文章.
flink专题: Flink系列文章.

🐡说到spark的资源调度，我们主要关心的是执行计算任务节点的资源调度的设置，如单个Executor的核数、单个节点Executor的个数、单个Executor的内存大小等，接下来将会对这些进行详细的介绍。

1. 总体资源

我们这里假设单台服务器的内存大小为128g,32个线程。

1.1 Executor的核数

executor-cores的个数决定任务的并行度，也就是同时执行task的个数，一般情况下，executor-cores的个数设置为3～6个之间比较合适。

1.2 Executor的个数

这里的Executor的个数是指整个集群的Executor的个数个数，所以：
总的 e x e c u t o r 个数 = 每个节点的 e x e c u t o r 数 ∗ w o r k 节点数总的 executor个数= 每个节点的 executor 数 * work 节点数总的executor个数=每个节点的executor数∗work节点数
那么单个节点的Executor个数如何计算，单个节点所能接受的最大Executor个数和yarn给的资源和Executor的核数有关，关系如下：

每个 n o d e 的 e x e c u t o r 数 = 单节点 y a r n 总核数每个 e x e c u t o r 的最大 c p u 核数每个 node 的 executor 数 = \dfrac{单节点 yarn 总核数}{每个 executor 的最大 cpu 核数}每个node的executor数=每个executor的最大cpu核数单节点yarn总核数

考虑到系统基础服务和 HDFS 等组件的余量，yarn的nodemanager资源配置为：28，参数 executor-cores 的值为：4，那么每个 node 的 executor 数 = 28/4 = 7,假设集群节点为 10，那么 num-executors = 7 * 10 = 70

1.3 Executor的内存

每个Executor的内存的大小也和yarn分配的资源有关系：
e x e c u t o r 内存大小 = y a r n 总内存大小每个节点的 e x e c u t o r 数量 executor内存大小= \dfrac{yarn总内存大小}{每个节点的 executor 数量}executor内存大小=每个节点的executor数量yarn总内存大小
例如：单个节点的 yarn 的参数配置为 100G，那么每个 Executor 大概就是 100G/7≈14G,同时要注意yarn 配置中每个容器允许的最大内存是否匹配，一般情况yarn默认配置的每个容器的内存大小范围为[1g,8g].

2. 内存资源

我们先来看一下spark的内存划分：

storage空间：用来存放cache、persist和广播变量的缓存数据。（Storage 内存 = 广播变量 + cache/Executor 数量）
executor空间：主要负责执行计算过程中的内存开销，比如shuffle过程需要的内存。（Executor 内存 = 每个 Executor 核数 * （数据集大小/并行度））
other空间：自定义的数据结构和元数据，（Other 内存 = 自定义数据结构*每个 Executor 核数）

3. 持久化和序列化

我们先来介绍一下持久化和序列化在spark中的含义：

持久化：在不同操作间，持久化（或缓存）一个数据集在内存中。当你持久化一个RDD，每一个结点都将把它的计算分块结果保存在内存中，并在对此数据集（或者衍生出的数据集）进行的其它动作中重用。这将使得后续的动作（action）变得更加迅速（通常快10倍）。
序列化：序列化是将对象的状态信息转换为可以存储或传输的形式的过程，主要目的有两个：1. 存储到磁盘； 2. 通过网络进行传输；而在spark中，算子相关的操作在Excutor上执行，算子之外的代码在Driver端执行，在执行有些算子的时候，需要只用到Driver里面定义的数据，这就涉及到了跨进程或着跨节点之间的通讯，所以要求传递给Excutor中的数组所属的类型必须实现Serializable接口。

3.1 RDD

我们使用rdd持久化时，默认 cache 缓存级别（memory_only），如果此时存储内存较小，可以采用kryo+序列化缓存，可以优化存储内存占用。

3.2 Dataset和Dataframe

我们使用dataset持久化时，默认cache缓存级别（memory_and_disk）,即内存不够磁盘来凑，如果采用序列化的方式，实际效果和未序列化差别不大，因为Dataset和Dataframe是被优化过的rdd，所以开发中直接使用cache缓存即可。

总体来说，如果使用RDD进行持久化，建议采用kryo序列化+持久化的操作，如果使用Dataset和Dataframe直接使用cache持久化即可。从性能上来讲，DataSet,DataFrame 优于 RDD，建议开发中使用 DataSet、DataFrame。

4. CPU资源

首先来了解几个非常容易搞混的概念：

4.1 并行度

并行度指的就是task的数量，或者说分区数量

rdd的控制方法：spark.default.parallelism，根据算子计算决定
sql的控制方法：spark.sql.shuffle.partitions，默认200

4.2 并发度

并发度指的可同时执行的最大task数量，那这和并行度有何区别，首先并行度是指一个任务需要多少个分区，比如groupby之后产生了200个分区（200task），但是我们的executor只有2个核，即我们最多同时执行2个task，那么这个任务的并发度就是2，并行度是200。每次执行2个task，执行完后换上下一个task，一直到执行完200个。

4.3 合理利用CPU

下面两种情况会导致CPU效率过低：

并行度较低、数据分片较大容易导致 CPU 线程挂起（处理数据量大）
并行度过高、数据过于分散会让调度开销更多（task数量过多）

根据经验：一般会将并行度（task 数）设置成并发度（vcore 数）的 2 倍到 3 倍。

这一部分的详细内容可参考: spark学习之并行度、并发、core数和分区的关系.

5. 总结

本博客主要介绍了spark运行过程中的一些资源调度的情况，以及如何配置资源调度使spark的运行效率得到提高，主要从内存、持久化、cpu资源等方面进行了介绍。

6. 参考文章

《尚硅谷大数据技术之 Spark 调优》
《spark权威指南》
链接: spark持久化.
链接: 序列化的定义.

32

4

0

文章推荐： Linux笔记-iptables规则原理和组成

文章推荐：平衡树：为什么Redis内部实现用跳跃表

文章推荐： vue条件渲染使用场景（v-if VS v-show）

文章推荐： spark学习之执行计划explain

multithreading - Perl中的线程同步/调度
我有一个带有一些功能的perl对象。每个功能从主程序中调用一次。我想并行运行某些功能以节省时间。由于某些功能取决于先前功能的结果，因此我无法将它们全部一起运行。我想到了这样的事情: 对于每个函数，保
python 调度 - 如何避免无限循环？
首先，我的代码在这里: import schedule # see https://github.com/dbader/schedule import crawler def job(): p
java - quartz 调度
从 11 月 1 日开始，我必须使用quartz调度程序每4个月安排一次任务。我使用 cronExpression 来实现同样的目的。但 cronExpression 每年都会重置。所以我的任务将在
java - Akka 调度
我有以下代码块，它调用两个请求，但略有延迟。 final ActorRef actor1 = getContext().actorOf( ActorClass.prop
linux - 调度 - 每个进程使用一个或多个内核堆栈进行上下文切换
考虑到 Linux 的情况，我们为每个用户堆栈都有一个内核堆栈，据我所知，每当发生上下文切换时，我们都会切换到当前进程的内核模式。这里我们保存当前进程的当前状态，寄存器，程序数据等，然后调度器(不确
c - OpenBSD下的pthread优先级/调度
我有将东西移植到 OpenBSD 的奇怪爱好。我知道它有 pthreads 问题，但在 2013 年 5 月发布版本之前我不会升级。我使用的是 5.0，我对 pthreads 还很陌生。我已经学习了
algorithm - 调度:隐式期限率单调算法的提前期限
给定一组任务: T1(20,100) T2(30,250) T3(100,400) (execution time, deadline=peroid) 现在我想将截止日期限制为 Di = f * Pi
python - 调度:最小化非重叠时间范围之间的差距
使用 Django 开发一个小型日程安排 Web 应用程序，在该应用程序中，人们被分配特定的时间与他们的上级会面。员工存储为模型，与表示时间范围和他们有空的星期几的模型具有 OneToMany 关系。
algorithm - 贪心算法，调度
我想了解贪婪算法调度问题的工作原理。所以我一直在阅读和谷歌搜索一段时间，因为我无法理解贪心算法调度问题。我们有 n 个作业要安排在单个资源上。作业 (i) 有一个请求的开始时间 s(i) 和结束时
algorithm - 调度，贪心算法
这是流行的 El Goog 问题的变体。考虑以下调度问题:有 n 个作业，i = 1..n。有 1 台 super 计算机和无限的 PC。每个作业都需要先经过 super 计算机的预处理，然后再在P
python - 调度 Scrapy 蜘蛛以脚本的间隔运行
假设我有一个需要运行多次的蜘蛛 class My_spider(Scrapy.spider): #spider def 我想做这样的事 while True: runner = Cra
kubernetes - 如何调试 kubernetes 调度？
我已将 podAntiAffinity 添加到我的 DeploymentConfig 模板中。但是，pod 被安排在我预计会被规则排除的节点上。我如何查看 kubernetes 调度程序的日志以了
reactjs - 调度 Redux 操作是否被认为是昂贵的？
我已经使用 React - Redux - Typescript 堆栈有一段时间了，到目前为止我很喜欢它。但是，由于我对 Redux 很陌生，所以我一直在想这个特定的话题。调度 Redux 操作(和
azure - 调度 Azure 实例
我想按照预定的计划(例如，周一至周五，美国东部时间晚上 9 点至 5 点)运行单个 Azure 实例以减少账单，并且想知道最好的方法是什么。问题的两个部分: 能否使用服务管理 API [1] 按预定
Drupal 的引导/调度/路由流程
假设最小模块安装(为了简单起见)，Drupal 的 index.php 中两个顶级功能的核心“职责”是什么？ ? drupal_bootstrap(DRUPAL_BOOTSTRAP_FULL); me
scheme - Racket URL 调度
我正在尝试使用 Racket(以前称为 PLT Scheme)连接 URL 调度。我查看了教程和服务器文档。我不知道如何将请求路由到相同的 servlet。具体例子: #lang 方案 (需要网络服
月末的 Airflow DAG 调度
我想在 Airflow (v1.9.0) 上运行计划。我的DAG需要在每个月底运行，但我不知道如何编写设置。 my_dag = DAG(dag_id=DAG_ID, cat
azure - 调度 httpTrigger 函数
我正在尝试在“httpTrigger”类型函数的 function.json 中设置计划字段，但计时器功能似乎未运行。我的目标是拥有一个甚至可以在需要时进行调度和手动启动的功能，而不必仅为了调度而添加
Airflow 无法识别 DAG 调度
我正在尝试制定每周、每月的 Airflow 计划，但不起作用。有人可以报告可能发生的情况吗？如果我每周、每月进行安排，它就会保持静止，就好像它被关闭一样。没有错误信息，只是不执行。我发送了一个代码示例
javascript - firebase 有办法每两周调用一次我的代码吗？调度
我希望每两周自动更新一次我的表格。我希望我的函数能够被 firebase 调用。这可能吗？我正在使用 Angular 2 Typescript 和 Firebase。最佳答案仅通过fireba

首页

博学

6Ren·AI

商城