gpt4 book ai didi

hadoop - 使用 distcp 命令复制到 s3 位置

转载 作者:可可西里 更新时间:2023-11-01 16:42:21 24 4
gpt4 key购买 nike

我正在使用以下命令将一些数据从 HDFS 复制到 S3:

$ hadoop distcp -m 1 /user/hive/data/test/test_folder=2015_09_19_03_30 s3a://data/Test/buc/2015_09_19_03_30

2015_09_19_03_30 存储桶不存在于 S3 中。它成功地将 /user/hive/data/test/test_folder=2015_09_19_03_30 目录的数据复制到 S3 2015_09_19_03_30 存储桶中,但是当我再次执行相同的命令时,它会创建另一个存储桶进入 S3。

我希望这两个文件应该在同一个桶中。

最佳答案

This is the case you were trying right, because it puts new files in same bucket

// first there is no data
$ hadoop fs -ls s3n://testing/
$

// then dist cp the data in dir input to testing bucket
$ hadoop distcp input/ s3n://testing/
$ hadoop fs -ls s3n://testing/
Found 1 items
drwxrwxrwx - 0 1970-01-01 00:00 s3n://testing/input
$ hadoop fs -ls s3n://testing/input/
Found 3 items
-rw-rw-rw- 1 1670 2016-09-23 13:23 s3n://testing/input/output
-rw-rw-rw- 1 541 2016-09-23 13:23 s3n://testing/input/some.txt
-rw-rw-rw- 1 1035 2016-09-23 13:23 s3n://testing/input/some2.txt
$
// added new file a.txt in input path
// and executed same command
$ hadoop distcp input/ s3n://testing/
$ hadoop fs -ls s3n://testing/input/
Found 4 items
-rw-rw-rw- 1 6 2016-09-23 13:26 s3n://testing/input/a.txt
-rw-rw-rw- 1 1670 2016-09-23 13:23 s3n://testing/input/output
-rw-rw-rw- 1 541 2016-09-23 13:23 s3n://testing/input/some.txt
-rw-rw-rw- 1 1035 2016-09-23 13:23 s3n://testing/input/some2.txt
$

关于hadoop - 使用 distcp 命令复制到 s3 位置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39655036/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com