gpt4 book ai didi

hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么?

转载 作者:可可西里 更新时间:2023-11-01 14:50:49 25 4
gpt4 key购买 nike

我总是使用“dfs -get”或“dfs -cat”,但我想可能会有更好的东西。使用“dfs -cat | pv”,我的网络连接似乎没有饱和(我只有 20MB/秒)。也许有办法并行化它吗?

最佳答案

dfs -cat 必须通过单个进程传送所有数据,并行性很差。

我所做的是运行一个仅限映射器的流作业,该作业转储到每个磁盘上的暂存空间,然后 rsync 返回到一台机器。这两部分都很好地充分发挥了集群的作用;并且由于 rsync 是很好的幂等性,所以您可以与 hdfs->local 部分同时启动它。

关于hadoop - 将数据从 Hadoop DFS 传输到本地文件系统的最快方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4775417/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com