gpt4 book ai didi

hadoop - MapReduce:使用 Python[Streaming] 编写序列文件

转载 作者:可可西里 更新时间:2023-11-01 15:27:12 25 4
gpt4 key购买 nike

我正在尝试在 MapReduce 中编写序列文件。我用 java 成功地做到了,但我不确定如何用 python 做到这一点。

谢谢!

最佳答案

Hadoop 接受 Streaming 命令选项 -outputformat
要将输出文件生成为序列文件,请使用-outputformat SequenceFileOutputFormat

例如:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
-input myInputDirs \
-output myOutputDir \
-outputformat org.apache.hadoop.mapred.SequenceFileOutputFormat\
-mapper MapperClass \
-reducer ReducerClass

默认情况下,-inputformat-outputformat分别设置为TextInputFormatTextOutputFormat

关于hadoop - MapReduce:使用 Python[Streaming] 编写序列文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42777919/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com