gpt4 book ai didi

amazon-ec2 - 在 EC2 上使用 Spark 创建集群时分发文件

转载 作者:行者123 更新时间:2023-12-04 00:18:32 25 4
gpt4 key购买 nike

我正在 Amazon 的 EC2 基础设施上使用 Spark。在执行 Spark 应用程序之前,我需要将自定义文件(在我的情况下是 native 库)分发并发送到所有工作节点上。我正在寻找类似于 Amazon 的 Elastic MapReduce (EMR) 提供的引导功能的东西,开发人员可以使用它在引导阶段在每个节点上运行自定义脚本。

到目前为止,我已经使用了 copy-dir Spark 提供的脚本(位于 spark-ec2 文件夹中)将确定的文件复制到集群中的所有可用节点,其工作方式如下:

想象一个需要存在于所有节点中的 native 库 ( myLib.so )。第一步是在我们想要通过集群传播的确切目录中定位文件。之后,我们可以运行 copy-dir脚本如下:

spark-ec2/ > sh copy-dir my/file/location/myLib.so

但是,这种方法只能在创建集群后使用,我想知道是否存在任何引导可能性。

最佳答案

查看 sc.addFile()。这可用于将文件分发到所有工作节点

关于amazon-ec2 - 在 EC2 上使用 Spark 创建集群时分发文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25582545/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com