gpt4 book ai didi

java - 如何将 .txt 文件转换为 Hadoop 的序列文件格式

转载 作者:IT老高 更新时间:2023-10-28 21:02:48 25 4
gpt4 key购买 nike

为了有效利用 Hadoop 中的 map-reduce 作业,我需要将数据存储在 hadoop's sequence file format .但是,目前数据只有平面 .txt 格式。谁能建议我可以将 .txt 文件转换为序列文件的方法?

最佳答案

因此,更简单的答案只是一个具有 SequenceFile 输出的“身份”作业。

在java中看起来像这样:

    public static void main(String[] args) throws IOException,
InterruptedException, ClassNotFoundException {

Configuration conf = new Configuration();
Job job = new Job(conf);
job.setJobName("Convert Text");
job.setJarByClass(Mapper.class);

job.setMapperClass(Mapper.class);
job.setReducerClass(Reducer.class);

// increase if you need sorting or a special number of files
job.setNumReduceTasks(0);

job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(Text.class);

job.setOutputFormatClass(SequenceFileOutputFormat.class);
job.setInputFormatClass(TextInputFormat.class);

TextInputFormat.addInputPath(job, new Path("/lol"));
SequenceFileOutputFormat.setOutputPath(job, new Path("/lolz"));

// submit and wait for completion
job.waitForCompletion(true);
}

关于java - 如何将 .txt 文件转换为 Hadoop 的序列文件格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5377118/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com