gpt4 book ai didi

apache-spark - 在EMR从站上运行命令?

转载 作者:行者123 更新时间:2023-12-04 04:23:25 25 4
gpt4 key购买 nike

我正在尝试在所有从属计算机上使用pip install更新正在运行的EMR群集。我怎样才能做到这一点?

我无法通过引导步骤执行此操作,因为它是运行时间很长的EMR,因此我无法删除它。

EMR集群正在运行Spark&Yarn,因此我通常会使用spark slaves.sh,但在主节点上找不到该脚本。它安装在我找不到的地方吗?还是有某种安装方法?

我还看到了其他问题,例如使用 yarn 分散 shell ,但是我找不到如何做到这一点的有效示例。

顺便说一句,我相信集群正在使用EMR 4.8.0,Spark 1.6.1。

最佳答案

您可以从节点上运行yarn命令以获取所有节点的列表,并且可以使用SSH在所有这些节点上运行命令。就像前面提到的文章一样,您可以运行类似

#Copy ssh key(like ssh_key.pem) of the cluster to master node.
aws s3 cp s3://bucket/ssh_key.pem ~/

# change permissions to read
chmod 400 ssh_key.pem

# Run a PIP command
yarn node -list|sed -n "s/^\(ip[^:]*\):.*/\1/p" | xargs -t -I{} -P10 ssh -o StrictHostKeyChecking=no -i ~/ssh_key.pem hadoop@{} "pip install package"

关于apache-spark - 在EMR从站上运行命令?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40897671/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com