gpt4 book ai didi

apache-spark - 分发文件副本给执行者

转载 作者:可可西里 更新时间:2023-11-01 16:35:35 26 4
gpt4 key购买 nike

我有一堆数据(在 S3 上)正在复制到本地 HDFS(在亚马逊 EMR 上)。现在我正在使用 org.apache.hadoop.fs.FileUtil.copy 执行此操作,但尚不清楚这是否会将文件副本分发​​给执行程序。 Spark History 服务器中肯定没有显示任何内容。

Hadoop DistCp 看起来很像(注意我在 S3 上,所以它实际上应该是 s3-dist-cp 构建在 dist-cp) 除了它是一个命令行工具。我正在寻找一种从 Scala 脚本(又名 Java)调用它的方法。

有什么想法/线索吗?

最佳答案

cloudcp是使用Spark做复制的例子;文件列表变成一个 RDD,每一行 == 一个副本。该设计针对从 HDFS 上传进行了优化,因为它尝试将上传安排在 HDFS 中的文件附近。

要下载,你要

  • 使用 listFiles(path, recursive) 在列出对象存储时获得最佳性能。
  • 将源文件列表随机化,这样您就不会受到 AWS 的限制
  • 在 HDFS 集群中随机放置,以便 block 最终均匀地分布在集群周围

关于apache-spark - 分发文件副本给执行者,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53660753/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com