apache-spark - 分发文件副本给执行者-6ren

apache-spark - 分发文件副本给执行者

转载作者：可可西里更新时间：2023-11-01 16:35:35

26

4

我有一堆数据(在 S3 上)正在复制到本地 HDFS(在亚马逊 EMR 上)。现在我正在使用 org.apache.hadoop.fs.FileUtil.copy 执行此操作，但尚不清楚这是否会将文件副本分发给执行程序。 Spark History 服务器中肯定没有显示任何内容。

Hadoop DistCp 看起来很像(注意我在 S3 上，所以它实际上应该是 s3-dist-cp 构建在 dist-cp) 除了它是一个命令行工具。我正在寻找一种从 Scala 脚本(又名 Java)调用它的方法。

有什么想法/线索吗？

最佳答案

cloudcp是使用Spark做复制的例子；文件列表变成一个 RDD，每一行 == 一个副本。该设计针对从 HDFS 上传进行了优化，因为它尝试将上传安排在 HDFS 中的文件附近。

要下载，你要

使用 listFiles(path, recursive) 在列出对象存储时获得最佳性能。
将源文件列表随机化，这样您就不会受到 AWS 的限制
在 HDFS 集群中随机放置，以便 block 最终均匀地分布在集群周围

关于apache-spark - 分发文件副本给执行者，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53660753/

26

4

0

文章推荐： sql-server - 使用 Tableau 创建仪表板的 Hive 性能？

文章推荐： http - 如何使用SRV记录指向80以外的端口

文章推荐： azure - 使用 Azure 存储创建外部表

installation - OpenCL 分发
我目前正在为一组非常异构的计算机开发 OpenCL 应用程序(具体使用 JavaCL)。为了最大限度地提高性能，如果 GPU 可用，我想使用它，否则我想回退到 CPU 并使用 SIMD 指令。我的计划
iPhone OTA 分发
我尝试使用以下链接为我的示例应用程序创建 OTA: http://developer.apple.com/library/ios/#featuredarticles/FA_Wireless_Enter
Gradle 分发 - 创建一个空目录
使用 gradle 发行版插件创建发行版时是否可以添加空目录(例如“日志”)？我看到了this JIRA ，描述完全相同的事情。仍然开放https://issues.gradle.org/brows
ios - 有效的配置文件均不包含设备 - 分发
我在网上看到，如果我们想将应用程序分发到应用程序商店，我们需要一个单独的分发配置文件。我知道 StackOverflow 上已经有针对此错误的答案，但我认为我的答案与我的分发配置文件有关。所以现在我
iOS 配置文件(分发)
我想为 existing bundle id 创建新的 IOS Provisioning profile 但它给我一个错误。请帮忙我创建同名的IOS 但管理员做了一些事情并使其无效。现在他为我创建了
Git 创建完整的文件补丁以下载/分发？
要么我疯了，要么没有人喜欢/喜欢这个功能，但很久以前我曾经在 sourceforge 系统中使用 subversion。我有能力为完成的提交创建完整的文件补丁。无论如何，我无法弄清楚如何在 git
Ruby 独立应用程序部署/分发
以不需要客户手动安装 Ruby 和所需 Gem 的方式向客户分发简单的命令行 Ruby 应用程序的最佳方式是什么？根据我的理解，这个任务归结为几行 SH/BAT 代码，这些代码执行 Ruby/Gem
java - 分发 Java 文件的最佳方式
我有一个依赖于多个库的 Java 项目，这些库作为 JAR 文件分发。当我构建我的项目时，我最终得到了 myProject.jar 和一个 lib 文件夹，其中包含我使用的每个库的 JAR 文件。为
raku - 分发 .dist-id
编辑:更新了问题，因为我很困惑 .dist-id与 .id ; 我正在尝试卸载 dist，但是当我通过 Distribution 时至 .uninstall看起来它的计算方式不同 .dist-id和
lua - 分发 Lua 和库的最佳方式是什么？
我正在考虑移动一个当前嵌入 Python 解释器的程序以使用 Lua。使用 Python 相当容易使用 modulefinder , compileall , 和 zipfile制作一个包含所有使用的
iphone - 分发 iPhone 应用程序以在特定位置运行的一些方法
我的老板想要为特定客户分发该应用程序，该客户的员 worker 数约为 500 人。该应用程序使用 Web 服务和设备的 UDID 来限制其他用户访问该软件。我们不是一个可以注册企业程序的大公司，尤其
iphone - 分发 iPhone 特别更新
我正在使用临时分发来运行 Beta 测试程序，并且在分发应用程序更新时遇到了一些问题。我能够通过临时分发在设备上获取应用程序更新的唯一方法是先从设备中删除应用程序，然后安装更新。这为 Beta 测试人
iphone - 分发 iPhone 应用程序的开发版本
我的公司最近开始为各种客户开发定制 iPhone 应用程序。我们遇到的挑战之一是如何将这些应用程序提供给客户，以便他们可以在开发过程中对其进行审查。理想情况下，只需向他们发送应用程序文件并让他们将其
iphone - SDWebImage 构建用于存档(分发)？
我正在使用 SDWebImage 开源项目来异步加载图像。我可以为模拟器以及我的本地设备构建和运行。但是，当我尝试构建分发(即存档)时，编译器似乎不理解头文件是什么: 导入“UIImageView+W
c++ - 分发 DbgHelp.DLL
我的应用程序依赖于 DBGHELP.DLL 函数，尤其是有关目标进程加载的 DLL 的信息。然而，很多时候它在低于 Vista 的 Windows 版本上失败(你知道 XP 仍然存在!)。环顾四周，发
haskell - 分发 Haskell 应用程序和更新它的最佳实践
tl;博士大约一周前，我为我的第一个重要的 Haskell 项目发布了 0.1.0.0 包。我希望可执行文件易于安装和升级，即使对于非 Haskellers 也是如此。在 the README 中，
erlang - 分发 Erlang 聊天系统
我刚刚完成 Erlang 实践截屏视频(代码 here )，并且有一些关于分发的问题。这是整体架构: 以下是监督树的样子: 阅读Distributed Applications让我相信主要动机之一是
iPhone 私有(private)分发
我是 iPhone 世界的新手。我开发了一个应用程序，我想将其发送到特定 wi-fi 接入点附近的所有 iphone。 (它适用于购物中心) 据我所知，由于我在这方面的知识有限，我无法通过我的网络服
java - 分发 Java 控制台程序
我使用 Netbeans 创建了一个 Java 控制台应用程序。在 Netbeans dist 目录中，我有该项目的类文件。现在我需要将可执行文件提供给其他人谁将在另一台电脑上运行它们。我应该发送哪
ironpython - 分发 IronPython 应用程序
我正在考虑使用 IronPython 开发一个小型应用程序，但是我想将我的应用程序分发给非技术人员，因此理想情况下我希望能够为他们提供我的应用程序的标准快捷方式以及他们需要的说明首先安装 IronPy

首页

博学

6Ren·AI

商城

apache-spark - 分发文件副本给执行者