- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我像这样实现了 Apache Spark 调度(Scala 代码):
// group into list of 10 items...
val maxSimultaneousSubmitAndMonitorThreadsInDriver = 10
// ... in order to throttle the number of threads submitting and monitoring apps at a time
val lists = myList grouped maxSimultaneousThreadsInDriver
for (aList <- lists) {
// pick a list, then convert it to Scala Parallel list
aList.par.foreach { // so 10 threads MAX at a time, that can handle job submission and monitoring
case (file_name) => {
// in each driver thread, create different Spark session
val sparkChild = sparkMain.newSession()
// then do specific stuff with such session
val childDF = sparkChild.read.parquet( filename + "_directory/*.parquet")
...
}
}
}
By default, Spark’s scheduler runs jobs in FIFO fashion. Each job is divided into “stages” (e.g. map and reduce phases), and the first job gets priority on all available resources while its stages have tasks to launch, then the second job gets priority, etc. If the jobs at the head of the queue don’t need to use the whole cluster, later jobs can start to run right away [...]
maxSimultaneousSubmitAndMonitorThreadsInDriver
,为了限制在给定时间提交和监控应用程序的线程数 spark.scheduler.listenerbus.eventqueue.capacity
spark.default.parallelism
spark.sql.shuffle.partitions
spark.default.parallelism
和
spark.sql.shuffle.partitions
,我不知道如何选择相关值。如果我不进行调度(每个驱动程序只有一个应用程序),我设置的值可能是 192(内核数)以获得良好的结果。
最佳答案
首先,您定义 maxSimultaneousSubmitAndMonitorThreadsInDriver=10
然后使用 maxSimultaneousThreadsInDriver
而不是你刚刚宣布的那个,这是故意的吗?
其次,尝试删除行val sparkChild = sparkMain.newSession()
并将下一行更改为 val childDF = sparkMain.read.parquet( filename + "_directory/*.parquet")
相反,它编译吗?如果它确实保持这种方式并再次检查。
您是否尝试增加执行者数量?
如果参数已存在于您的 spark-submit 中,请添加或更改 --num-executors 20
, 如果通过代码创建上下文添加 conf.set("spark.executor.instances", 20)
就在 new SparkContext(conf)
之前在你的代码行。
现在再次运行,它会提高性能吗?如果是但不够增加到 40。
如果您仍然卡住,请继续阅读。
默认的 Spark 作业运行行为是 FIFO,即第一个作业将被优先处理,只有在有可用资源时才执行后面的作业 后 第一个作业释放资源。
我猜你只得到 14 个任务(每个执行程序 7 个),因为你的文件非常小,如果任务运行得非常快,那么重新分区不会解决问题,但允许并行作业会。
由于您正在寻找作业之间的并行性,我建议您使用 FAIR 调度程序并为您创建的每个线程/作业分配不同的池。
通过添加到您的 spark-submit --conf spark.scheduler.mode=FAIR
为您的 spark 应用程序配置 FAIR 共享, 如果通过代码创建上下文添加 conf.set("spark.scheduler.mode", FAIR)
就在 new SparkContext(conf)
之前在你的代码行。
在线程内执行任何作业之前分配随机池名称(您可以使用线程 ID,但即使对于相同的线程,建议为每个作业使用不同的池名称):
val randomString = scala.util.Random.alphanumeric.take(10).mkString("")
sparkMaster.setLocalProperty("spark.scheduler.pool", randomString)
val childDF = sparkMaster.read.parquet( filename + "_directory/*.parquet")
(max_cores / max_threads)
,在您的情况下(看到 2 个具有 192 个可用内核的执行程序,即总共 384
384/10=38
,因此 repartition(38) 可能会有所帮助。
关于scala - 应用程序中的 Spark 调度 : performance issue,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60480033/
我有一个带有一些功能的perl对象。每个功能从主程序中调用一次。我想并行运行某些功能以节省时间。由于某些功能取决于先前功能的结果,因此我无法将它们全部一起运行。 我想到了这样的事情: 对于每个函数,保
首先,我的代码在这里: import schedule # see https://github.com/dbader/schedule import crawler def job(): p
从 11 月 1 日开始,我必须使用quartz调度程序每4个月安排一次任务。我使用 cronExpression 来实现同样的目的。但 cronExpression 每年都会重置。所以我的任务将在
我有以下代码块,它调用两个请求,但略有延迟。 final ActorRef actor1 = getContext().actorOf( ActorClass.prop
考虑到 Linux 的情况,我们为每个用户堆栈都有一个内核堆栈,据我所知,每当发生上下文切换时,我们都会切换到当前进程的内核模式。 这里我们保存当前进程的当前状态,寄存器,程序数据等,然后调度器(不确
我有将东西移植到 OpenBSD 的奇怪爱好。我知道它有 pthreads 问题,但在 2013 年 5 月发布版本之前我不会升级。我使用的是 5.0,我对 pthreads 还很陌生。我已经学习了
给定一组任务: T1(20,100) T2(30,250) T3(100,400) (execution time, deadline=peroid) 现在我想将截止日期限制为 Di = f * Pi
使用 Django 开发一个小型日程安排 Web 应用程序,在该应用程序中,人们被分配特定的时间与他们的上级会面。员工存储为模型,与表示时间范围和他们有空的星期几的模型具有 OneToMany 关系。
我想了解贪婪算法调度问题的工作原理。 所以我一直在阅读和谷歌搜索一段时间,因为我无法理解贪心算法调度问题。 我们有 n 个作业要安排在单个资源上。作业 (i) 有一个请求的开始时间 s(i) 和结束时
这是流行的 El Goog 问题的变体。 考虑以下调度问题:有 n 个作业,i = 1..n。有 1 台 super 计算机和无限的 PC。每个作业都需要先经过 super 计算机的预处理,然后再在P
假设我有一个需要运行多次的蜘蛛 class My_spider(Scrapy.spider): #spider def 我想做这样的事 while True: runner = Cra
我已将 podAntiAffinity 添加到我的 DeploymentConfig 模板中。 但是,pod 被安排在我预计会被规则排除的节点上。 我如何查看 kubernetes 调度程序的日志以了
我已经使用 React - Redux - Typescript 堆栈有一段时间了,到目前为止我很喜欢它。但是,由于我对 Redux 很陌生,所以我一直在想这个特定的话题。 调度 Redux 操作(和
我想按照预定的计划(例如,周一至周五,美国东部时间晚上 9 点至 5 点)运行单个 Azure 实例以减少账单,并且想知道最好的方法是什么。 问题的两个部分: 能否使用服务管理 API [1] 按预定
假设最小模块安装(为了简单起见),Drupal 的 index.php 中两个顶级功能的核心“职责”是什么? ? drupal_bootstrap(DRUPAL_BOOTSTRAP_FULL); me
我正在尝试使用 Racket(以前称为 PLT Scheme)连接 URL 调度。我查看了教程和服务器文档。我不知道如何将请求路由到相同的 servlet。 具体例子: #lang 方案 (需要网络服
我想在 Airflow (v1.9.0) 上运行计划。 我的DAG需要在每个月底运行,但我不知道如何编写设置。 my_dag = DAG(dag_id=DAG_ID, cat
我正在尝试在“httpTrigger”类型函数的 function.json 中设置计划字段,但计时器功能似乎未运行。我的目标是拥有一个甚至可以在需要时进行调度和手动启动的功能,而不必仅为了调度而添加
我正在尝试制定每周、每月的 Airflow 计划,但不起作用。有人可以报告可能发生的情况吗?如果我每周、每月进行安排,它就会保持静止,就好像它被关闭一样。没有错误信息,只是不执行。我发送了一个代码示例
我希望每两周自动更新一次我的表格。我希望我的函数能够被 firebase 调用。 这可能吗? 我正在使用 Angular 2 Typescript 和 Firebase。 最佳答案 仅通过fireba
我是一名优秀的程序员,十分优秀!