gpt4 book ai didi

java - 从 Java 中的 spark 转换函数写入 HDFS 中的文件

转载 作者:可可西里 更新时间:2023-11-01 16:38:28 25 4
gpt4 key购买 nike

我的问题类似于一个已经回答过的问题,该问题在 scala 中用于读取文件。

Reading files dynamically from HDFS from within spark transformation functions

我知道累加器使用它们将结果返回给驱动程序并写入驱动程序中的 HDFS。在我们的用例中,每个执行程序的输出都很大,所以我正在寻找一种在 Java 转换中写入 HDFS 的方法。

谢谢!

最佳答案

终于找到了一个优雅的方式来实现这一目标。为hadoop配置创建一个广播变量

Configuration configuration = JavaSparkContext.toSparkContext(context).hadoopConfiguration();
Broadcast<SerializableWritable<Configuration>> bc = context.broadcast(new SerializableWritable<Configuration>(configuration));

将此广播变量传递给您的转换或操作,并使用以下代码片段获取 Hadoop 文件系统:

FileSystem fileSystem = FileSystem.get(bc.getValue().value());

如果其他人在同一条船上,希望这会有所帮助。

干杯!

关于java - 从 Java 中的 spark 转换函数写入 HDFS 中的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46794172/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com