gpt4 book ai didi

hadoop - Apache Spark 断路器

转载 作者:可可西里 更新时间:2023-11-01 15:51:50 27 4
gpt4 key购买 nike

在 Hadoop YARN 集群中使用 Apache Spark 1.6.2。

一些(简单的)查询会消耗大量资源,我看到我们的开发人员针对 1To 文件运行 SELECT * FROM DB!因此,它需要很长时间并暂时“阻塞”所有 YARN 资源(并在几个小时后大部分时间崩溃......)。

我想知道是否可以限制 Spark 在 YARN 集群中运行所消耗的时间/资源:

  • 限制时长
  • 限制随机播放(缓存)磁盘空间
  • 限制每个查询(或每个用户)的 CPU 时间

(不确定“断路器”是不是一个好词,我是从elasticsearch上拿来的)

最佳答案

这个问题很宽泛,但总的来说:

  • 使用调度程序队列确保多用户环境中不同用户之间的最佳分配。适当的容量配置应该足以获得很好的控制。
  • 使用抢占来确保失控的单个应用程序不会阻塞单个队列(但如果您考虑集群模式,请小心)。
  • 临时空间比较棘手,因为 YARN 不将磁盘视为一种资源,但标准操作系统配额应该在这里起作用。

关于hadoop - Apache Spark 断路器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48498604/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com