gpt4 book ai didi

apache-spark - 以编程方式访问实时 Spark 节点列表

转载 作者:行者123 更新时间:2023-12-05 01:36:29 25 4
gpt4 key购买 nike

我在 Spark 上实现了一个自定义数据层,它让 Spark 节点在本地持久保存一些数据,并向 Spark 主节点宣布它们的数据持久性。通过在我们编写的每个 Spark 节点和主节点上运行一些自定义代码,效果很好,但现在我想在我的集群中实现复制协议(protocol)。我想要构建的是,一旦主节点从一个节点收到消息说它是持久数据,主节点就可以随机选择另外两个节点并让它们持久保存相同的数据。

我一直在深入研究文档,但我没有看到 SparkContext 为我提供事件节点列表的明显方式。我错过了什么吗?

最佳答案

没有用于执行此操作的公共(public) API。但是,您可以使用 Developer API SparkListener ( http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.scheduler.SparkListener )。您可以创建自定义 SparkListener 类并将其添加到 SparkContext 中作为

   sc.addSparkListener(yourListener)

当添加或删除 BlockManager 时,系统将对 onBlockManagerAdded 和 onBlockManagerRemoved 进行分类,并且从 BlockManager 的 ID 中,我相信您可以获取运行 Spark 实时执行程序(运行 BlockManager)的节点的 URL。

我同意这有点 hacky。 :)

关于apache-spark - 以编程方式访问实时 Spark 节点列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25676476/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com