hadoop - 如何使用SequenceFileInputFormat将字节数组序列化为本地文件-6ren

hadoop - 如何使用SequenceFileInputFormat将字节数组序列化为本地文件

转载作者：行者123 更新时间：2023-12-02 21:51:15

25

4

我想这样做:protobuf->字节数组-> | HTTP post | ->字节数组->序列化为本地文件-> Hadoop中的MapReduce。

我想做的第一种方法是使用BufferedWriter / FileWriter将字节数组作为String写入带有'\ n'或另一个定界符的本地文件中。这种方式的问题是写入的字节数组可能包含'\ n'或其他定界符。

字节数组-> protobuf-> json，然后将json序列化为文件。它将遇到与上述相同的问题。

Hadoop中有一个名为SequenceFileInputFormat的InputFormat，它似乎在Hadoop的MapReduce中使用。我的问题是如何在本地将字节数组序列化为该格式的文件？

或任何其他方式可以解决我的问题？谢谢。

最佳答案

好的，问题现在已经解决。

org.apache.hadoop.io.SequenceFile.Writer为我工作。

Configuration conf = new Configuration();
LocalFileSystem fs = FileSystem.getLocal(conf);
SequenceFile.Writer writer = SequenceFile.createWriter(fs, conf, new Path("~/test"), LongWritable.class, BytesWritable.class);
LongWritable key = new LongWritable(1L);
BytesWritable val = new BytesWritable(protobufObject.toByteArray());
writer.append(key, val);
writer.close();

关于hadoop - 如何使用SequenceFileInputFormat将字节数组序列化为本地文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20703541/

25

4

0

文章推荐： hadoop - 如何使用Hadoop/Map-Reduce/etc？

文章推荐： hadoop - 如何手动下载CDH4设置

文章推荐： hadoop - 与Hive中的其他文件一起处理xml文件

java - 增加 SequenceFileInputFormat 的分割数
我使用 SequenceFileInputFormat 作为我的 map 输入，其中键是文本，值是文本。共有 106 个文件，每个文件的大小在 500 MB 到 750 MB 之间。我查看了我的日志，
java - 如何为 SequenceFileInputFormat 定义映射函数的键和值输入？
我正在尝试理解一个示例 hadoop 项目。它有以下代码块 jconf.setOutputKeyClass(Text.class); jconf.setOutputValueClass(Text.cl
hadoop - 正确使用 SequenceFileInputFormat，映射中的键类型不匹配
我正在尝试运行电子书 Mahout in Action 中第 6 章( list 6.1 ~ 6.4)中的推荐系统示例。有两个映射器/缩减器对。这是代码: 映射器 - 1 public class W
java - 扩展 SequenceFileInputFormat 以包含文件名+偏移量
我希望能够创建一个自定义的 InputFormat 来读取序列文件，但另外公开记录所在文件中的文件路径和偏移量。退后一步，这里是用例:我有一个包含可变大小数据的序列文件。键大多是无关紧要的，值高达几

首页

博学

6Ren·AI

商城

hadoop - 如何使用SequenceFileInputFormat将字节数组序列化为本地文件