gpt4 book ai didi

hadoop - 在 hadoop map reduce 中读取 excel 文件

转载 作者:可可西里 更新时间:2023-11-01 15:01:37 25 4
gpt4 key购买 nike

我正在尝试读取一个包含一些数据的 Excel 文件,以便在 hadoop 中进行聚合。map reduce 程序似乎工作正常,但输出结果是不可读的格式。我需要为 Excel 使用任何特殊的 InputFormat 阅读器吗Hadoop Map Reduce 中的文件?我的配置如下

   Configuration conf=getConf();
Job job=new Job(conf,"LatestWordCount");
job.setJarByClass(FlightDetailsCount.class);
Path input=new Path(args[0]);
Path output=new Path(args[1]);
FileInputFormat.setInputPaths(job, input);
FileOutputFormat.setOutputPath(job, output);
job.setMapperClass(MapClass.class);
job.setReducerClass(ReduceClass.class);
//job.setCombinerClass(ReduceClass.class);
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);
//job.setOutputKeyClass(Text.class);
//job.setOutputValueClass(Text.class);
System.exit(job.waitForCompletion(true)?0:1);
return 0;

输出结果是这样的 ��KW ��O��A��]n��ε��r3��\n"����p����6W��jJ����9W��f=��9ml��dR��y/Ք��7 ��^��i ��M*Ք��^nz��l��^��)��嘛j�(��dRͱ/7�TS*��M//7�TS��&�jZ�o��TSR� 7�@�)�o��T���5{%�+�6�w6-�=�e�_}m�)~�ʅ�ژ���: #�j� ]��u����>

最佳答案

我不知道是否有人真的为 MS Excel 文件开发了自定义 InputFormat(我对此表示怀疑,但快速研究一无所获),但您肯定无法使用 TextInputFormat 读取 Excel 文件。 XSL 文件是二进制的。

解决方案:将您的 Excel 文件导出为 CSV 或 TSV,然后您就可以使用 TextInputFormat 加载它们。

关于hadoop - 在 hadoop map reduce 中读取 excel 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15868631/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com