java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗？-6ren

java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗？

转载作者：可可西里更新时间：2023-11-01 14:51:40

25

4

我试图在减少部分输出一些特定的记录，这取决于键值记录的值。在hadoop mapreduce中可以使用类似的代码

public void setup(Context context) throws IOException, InterruptedException {
  super.setup(context);
  Configuration conf = context.getConfiguration ();
  FileSystem fs = FileSystem.get (conf);
  int taskID = context.getTaskAttemptID().getTaskID().getId();
  hdfsOutWriter = fs.create (new Path (fileName + taskID), true); // FSDataOutputStream
}
public void reduce(Text key, Iterable<Text> value, Context context) throws IOException, InterruptedException {
  boolean isSpecificRecord = false;
  ArrayList <String> valueList = new ArrayList <String> ();
  for (Text val : value) {
    String element = val.toString ();
    if (filterFunction (element)) return;
    if (specificFunction (element)) isSpecificRecord = true;
    valueList.add (element);
  }
  String returnValue = anyFunction (valueList);
  String specificInfo = anyFunction2 (valueList);
  if (isSpecificRecord) hdfsOutWriter.writeBytes (key.toString () + "\t" + specificInfo);
  context.write (key, new Text (returnValue));
}

我想在 spark 集群上运行这个过程，spark java api 可以像上面的代码那样做吗？

最佳答案

只是一个如何模拟的想法:

yoursRDD.mapPartitions(iter => {
   val fs = FileSystem.get(new Configuration())
   val ds = fs.create(new Path("outfileName_" + TaskContext.get.partitionId))
   ds.writeBytes("Put yours results")
   ds.close()
   iter
})

关于java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43654407/

25

4

0

文章推荐： Hadoop:datanode 进程正在运行但不工作？

文章推荐： c++ - 将 HBITMAP 绘制到分层窗口上。怎么了？

文章推荐： hadoop - 无法使用 importtsv 将数据从 Hdfs 导入到 Hbase

文章推荐： javascript - Metro 风格从网上加载 Js

Java HDF fsDataOutputStream 写入失败创建空文件
我在 hadoop 上写入小文件时遇到一个奇怪的问题。下面是示例程序 public void writeFile(Configuration conf, String message, String
hadoop - FSDataOutputStream.writeUTF() 在 hdfs 数据的开头添加额外的字符。如何避免这些额外的数据？
我正在尝试的是将 hdfs 上具有 xml 数据的序列文件转换为 hdfs 上的 .xml 文件。在 Google 上搜索并找到以下代码。我根据自己的需要做了修改，下面是代码.. public cl
java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗？
我试图在减少部分输出一些特定的记录，这取决于键值记录的值。在hadoop mapreduce中可以使用类似的代码 public void setup(Context context) throws I
java - 使用 FSDataOutputStream 从 Java REST-API 写入 HadoopDFS 的不需要的字符
我们构建了一个 java REST-API 来接收事件数据(比如点击购买按钮)并将该数据写入 HDFS。本质上，我们为每个发送数据(JSON 格式)或使用现有数据的主机打开流，使用时间戳、事件名称和主

首页

博学

6Ren·AI

商城

java - spark java api 有像 hadoop MultipleOutputs/FSDataOutputStream 这样的类吗？