gpt4 book ai didi

hadoop - 在 Hadoop 中将多个文件合并为一个文件

转载 作者:可可西里 更新时间:2023-11-01 14:07:14 28 4
gpt4 key购买 nike

我将多个小文件放入我的输入目录中,我想在不使用本地文件系统或编写 mapred 的情况下将其合并为一个文件。有什么方法可以使用 hadoof fs 命令或 Pig 来实现吗?

谢谢!

最佳答案

为了将所有内容都保存在网格上,使用带有单个 reducer 的 hadoop streaming 和 cat 作为映射器和 reducer(基本上是一个 noop)——使用 MR 标志添加压缩。

hadoop jar \
$HADOOP_PREFIX/share/hadoop/tools/lib/hadoop-streaming.jar \<br>
-Dmapred.reduce.tasks=1 \
-Dmapred.job.queue.name=$QUEUE \
-input "$INPUT" \
-output "$OUTPUT" \
-mapper cat \
-reducer cat

如果要压缩加
-Dmapred.output.compress=true\-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec

关于hadoop - 在 Hadoop 中将多个文件合并为一个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3548259/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com