gpt4 book ai didi

hadoop - 哪个是组合小 HDFS block 的最简单方法?

转载 作者:可可西里 更新时间:2023-11-01 14:16:01 25 4
gpt4 key购买 nike

我正在使用 Flume 将日志收集到 HDFS。对于测试用例,我有小文件 (~300kB),因为日志收集过程是针对实际使用进行缩放的。

有没有什么简单的方法可以将这些小文件组合成更接近 HDFS block 大小 (64MB) 的较大文件?

最佳答案

GNU coreutils split 可以完成这项工作。

如果源数据是行——在我的例子中是——一行大约是 84 字节,那么一个 HDFS block 64MB 可能包含大约 800000 行:

hadoop dfs -cat /sourcedir/* | split --lines=800000 - joined_
hadoop dfs -copyFromLocal ./joined_* /destdir/

或使用 --line-bytes 选项:

hadoop dfs -cat /sourcedir/* | split --line-bytes=67108864 - joined_
hadoop dfs -copyFromLocal ./joined_* /destdir/

关于hadoop - 哪个是组合小 HDFS block 的最简单方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4429617/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com