gpt4 book ai didi

apache-spark - Spark 历史服务器按用户 ID 或时间过滤作业

转载 作者:行者123 更新时间:2023-12-04 17:49:45 24 4
gpt4 key购买 nike

我的spark yarn集群被很多用户使用,spark history server中有很多作业。通过 spark 历史服务器分页来定位我的工作需要花费很多时间。我在 spark wiki here 上找不到任何按用户 ID 过滤作业的选项.

我想知道,有什么方法可以选择特定用户提交的作业列表吗?还是在特定的时间窗口?谢谢。

最佳答案

如果您正在使用 yarn,您可以依靠 yarn 来列出和过滤您的应用程序

yarn application -list | grep -i spark | grep hdpuser 

应该按 hdpuser 列出您的 spark 应用程序。同样在 YARN 网络用户界面上,您可以查看所有作业,并且可以按不同的条件进行筛选 (yarn commands)。

使用 REST API,在路径 /applications/[app-id]/environment 上,您拥有 spark 应用程序的环境详细信息(它仅适用于 2.2 spark 版本)。使用属性 user.name,它的值应该是启动 spark 作业的用户名。

查看端口 4040 上 spark web UI 上列出的环境属性,以查看所有可用属性。

关于apache-spark - Spark 历史服务器按用户 ID 或时间过滤作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46005416/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com