gpt4 book ai didi

hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子

转载 作者:可可西里 更新时间:2023-11-01 15:05:06 25 4
gpt4 key购买 nike

我正在使用 S3DistCp将内容从 S3 复制到 Amazon EMR HDFS。对于一些工作,我的空间不足,希望通过降低复制因子来解决这个问题。但我看不到在工作层面实现这一目标的方法。有人可以帮助解决这个问题吗?

最佳答案

您通常不希望在逐个作业的基础上修改集群的复制因子。复制用于数据冗余(在发生故障的情况下)和提高性能(通过使数据更接近计算操作)。最好将集群保留为预定义的值。

默认情况下,Amazon EMR 将 1-3 个核心节点的默认复制因子设置为 1,将 4-9 个核心节点的值设置为 2,将 10+ 个核心节点的值设置为 3。

理论上您可以更改 dfs.replication 设置,但这可能不是解决当前问题的最佳方法。

关于hadoop - 在运行 S3DistCp 时设置 HDFS 复制因子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33600891/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com