gpt4 book ai didi

java - 在集群上运行 Apache Spark 应用程序时是否可以缓存应用程序 jar?

转载 作者:行者123 更新时间:2023-11-30 08:22:43 24 4
gpt4 key购买 nike

我有一个 Apache Spark MLlib Java 应用程序,它应该使用不同的输入值在集群上运行很多次。是否可以将应用jar缓存在集群上并重用,以减少启动时间、网络负载和组件耦合?

使用的集群管理器有什么不同吗?

如果应用程序 jar 被缓存,是否可以在我的应用程序的不同实例中使用相同的 RDD 缓存?

最佳答案

Vainilla Spark 无法做到这一点(在撰写本文时 - Spark 正在快速发展)。

Ooyala 提供的 Spark-JobServer 完全可以满足您的需求。它在 jars 中保留一个寄存器用于顺序提交作业,并提供额外的设施来按名称缓存 RDD。请注意,在 Spark 集群上,Spark-JobServer 充当 Spark 驱动程序。工作人员在执行给定任务时仍需要从驱动程序加载 jar。

在此处查看文档:https://github.com/ooyala/spark-jobserver

关于java - 在集群上运行 Apache Spark 应用程序时是否可以缓存应用程序 jar?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24168350/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com