gpt4 book ai didi

hadoop - 使用Spark转换文件压缩格式

转载 作者:行者123 更新时间:2023-12-02 21:03:04 24 4
gpt4 key购买 nike

我需要更改一堆文件的压缩格式,并以相同的子目录名称和文件名输出它们。例如,如果输入如下:

/user/me/project/2017-3-06/ {part-r-00001.lzo, part-r-00002.lzo, ...}
/user/me/project/2017-3-07/ {part-r-00001.lzo, part-r-00002.lzo, ...}
/user/me/project/2017-3-08/ {part-r-00001.lzo, part-r-00002.lzo, ...}

预期输出应为:
/user/me/project_v2/2017-3-06/ {part-r-00001.lz4, part-r-00002.lz4, ...}
/user/me/project_v2/2017-3-07/ {part-r-00001.lz4, part-r-00002.lz4, ...}
/user/me/project_v2/2017-3-08/ {part-r-00001.lz4, part-r-00002.lz4, ...}

我什至应该使用Spark来实现吗?

最佳答案

假设您的文件在hdfs上:
如果文件是可拆分的,Spark是解密文件的好选择。

但是您不能直接将文件(例如gunzip)更新到相同的位置,因此请将输出内容写入新位置,然后在删除原始文件后,将新文件移动到原始位置。

确保在删除文件时使用-skipTrash,以提高时间效率。

关于hadoop - 使用Spark转换文件压缩格式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42684374/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com