gpt4 book ai didi

apache - 将数据从一个集群复制到另一个集群时 Hadoop Distcp 中止

转载 作者:可可西里 更新时间:2023-11-01 14:55:42 25 4
gpt4 key购买 nike

我正在尝试将分区 Hive 表的数据从一个集群复制到另一个集群。我正在使用 distcp 复制数据,但底层数据是分区的配置单元表。我使用了以下命令。

hadoop distcp -i {src} {tgt}

但是由于表是分区的,目录结构是根据分区表创建的。所以它显示错误创建重复和中止作业。

org.apache.hadoop.toolsCopyListing$DulicateFileException: File would cause duplicates. Aborting

我还使用了 -skipcrccheck -update -overwrite 但都没有用。

如何将表的数据从分区文件路径复制到目标位置?

最佳答案

尝试使用这个选项-strategy dynamic默认情况下,distcp 使用 uniformsize。

关于apache - 将数据从一个集群复制到另一个集群时 Hadoop Distcp 中止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47117609/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com