gpt4 book ai didi

hadoop - 在 HDFS 中将多个文本文件连接成一个非常大的文件

转载 作者:可可西里 更新时间:2023-11-01 15:04:21 26 4
gpt4 key购买 nike

我有多个文本文件。它们的总大小超过了我可用的最大磁盘大小(~1.5TB)

Spark 程序从 HDFS 读取单个输入文本文件。所以我需要将这些文件合二为一。 (无法重写程序代码,只给了*.jar文件执行)

HDFS有这样的能力吗?我怎样才能做到这一点?

最佳答案

我从你的问题中了解到你想将多个文件连接成一个文件。这是一个解决方案,可能不是最有效的方法,但它确实有效。假设您有两个文件:file1file2 并且您希望获得一个组合文件作为 ConcatenatedFile.这是脚本。

hadoop fs -cat /hadoop/path/to/file/file1.txt /hadoop/path/to/file/file2.txt | hadoop fs -put - /hadoop/path/to/file/Concatenate_file_Folder/ConcatenateFile.txt

希望这对您有所帮助。

关于hadoop - 在 HDFS 中将多个文本文件连接成一个非常大的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41380372/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com