gpt4 book ai didi

scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端

转载 作者:可可西里 更新时间:2023-11-01 16:36:45 30 4
gpt4 key购买 nike

在对 Spark Dataframe 执行 mapPartitions 操作时,是否有任何方法可以从 Spark Executor 获取 Hadoop 文件系统?如果没有,至少有什么方法可以获取 Hadoop 配置以生成新的 Hadoop 文件系统?

考虑到 HDFS 是基于 Kerberos 的。

用例类似于(伪代码):

spark.sql("SELECT * FROM cities").mapPartitions{ iter =>
iter.groupedBy(some-variable).foreach{ rows =>
hadoopFS.write(rows)
}
TaskContext.getPartitionId
}

最佳答案

我找到了解决方案。 Spark utils 包含一种非常简单的序列化 hadoop 配置的方法:https://github.com/apache/spark/blob/master/core/src/main/scala/org/apache/spark/util/SerializableConfiguration.scala

关于scala - 如何从 Spark Executor 获取或创建 Hadoop 客户端,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50776777/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com