gpt4 book ai didi

hadoop - 限制每个数据节点的非 dfs 使用

转载 作者:可可西里 更新时间:2023-11-01 15:18:23 24 4
gpt4 key购买 nike

由于Hadoop疯狂的数据分布和管理,我面临一个奇怪的问题。由于非 DFS 使用,我的一两个数据节点已完全填满,而其他节点几乎为空。有没有办法让非 dfs 的使用更加统一?[我已经尝试过使用 dfs.datanode.du.reserved 但这也无济于事]

问题示例: 我有 16 个数据节点,每个节点有 10 GB 的空间。最初,每个节点都有大约。 7 GB 可用空间。当我开始处理 5 GB 数据的作业(复制因子 = 1)时,我希望作业能够成功完成。可惜!当我监视作业执行时,突然发现一个节点空间不足,因为非 dfs 使用量约为 6-7 GB,然后它重试,另一个节点现在空间不足。我真的不想进行更高的重试,因为那不会提供我正在寻找的性能指标。

知道如何解决这个问题。

最佳答案

听起来你的输入没有被正确分割。您可能希望选择不同的 InputFormat 或编写您自己的 InputFormat 以更好地适应您的数据集。还要确保所有节点都列在 NameNode 的从属文件中。
另一个问题可能是严重的数据倾斜——当大部分数据流向一个 reducer 时。您可能需要创建自己的分区程序来解决它。

关于hadoop - 限制每个数据节点的非 dfs 使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12395034/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com