gpt4 book ai didi

hadoop - S3DistCp 按文件夹分组

转载 作者:可可西里 更新时间:2023-11-01 14:22:28 26 4
gpt4 key购买 nike

我正在尝试使用 S3DistCp 解决 Hadoop 中的小文件问题。它正在工作,但输出有点烦人。我正在处理的文件路径如下:

s3://test-bucket/test/0000eb6e-4460-4b99-b93a-469d20543bf3/201402.csv

并且该文件夹中可以有多个文件。我想按文件夹名称分组,所以我在 s3distcp 中使用以下按参数分组:

--groupBy '.*(........-.........-....-............).*'

它确实对文件进行了分组,但它仍然会产生多个输出文件夹,每个文件夹中有一个文件。有什么方法可以将分组的文件输出到一个文件夹,而不是多个?

谢谢!

最佳答案

截至 2015 年 11 月 20 日,这是 S3DistCp 的行为。它将根据源目录创建多个目录。它不会跨目录合并。

关于hadoop - S3DistCp 按文件夹分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28733082/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com