gpt4 book ai didi

1TB 数据的 Hadoop 数据复制 block 大小率

转载 作者:行者123 更新时间:2023-12-02 21:33:00 25 4
gpt4 key购买 nike

我有以下存储大小的 7 个数据节点:

  • 数据节点 1:250GB
  • 数据节点 2:250GB
  • 数据节点 3:250GB
  • 数据节点 4:45GB
  • 数据节点 5:250GB
  • 数据节点 6:250GB
  • 数据节点 7:250GB

  • 在数据节点 4 上,我在/data 上安装了 1TB 的数据。于是我开始了 put在datanode 4上操作( hadoop fs -put /data /user/hadoop-user/)。当存储耗尽时,它继续在其他存储较大的数据节点上操作,但速度很慢。

    现在我的问题是:
  • 有没有办法增加 put 的 block 大小率?手术?来自 here ,它说“DataNode 开始接收一小部分 (4 KB) 的数据”。对于 1TB 的数据来说,这似乎太小了。有没有办法增加这个?
  • 如果我停止 put 操作以增加 block 大小率(如果有),它会从停止的地方恢复吗?
  • 最佳答案

    答案:

  • 是的 - 阅读 dfs.stream-buffer-size , dfs.bytes-per-checksumdfs.client-write-packet-size - 那就是说数据包本身更大,我会小心这些设置 - 很可能问题出在其他地方
  • native 答案是 - 不 - 它不会恢复(但查看问题),它不会恢复正在进行的文件,但它可能不会覆盖已经完全上传的文件

  • 问题:
  • 你的网络设置是什么?
  • 你的复制因子是什么?
  • 你的最小复制因子是多少?
  • 它是哪个版本的hadoop?
  • 速度慢是什么意思?
  • 您想将数据写入单个文件还是多个文件?
  • 你可以在多个节点上挂载数据吗?

  • 此外:
  • 您可以考虑使用 distcp 并强制执行单一 map 作业 - 在节点上运行带有数据的任务 - 这为您提供更新和重试等(我自己还没有尝试过这种情况)
  • 关于1TB 数据的 Hadoop 数据复制 block 大小率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33574107/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com