scala - 在 yarn 簇上使用带有管道的 addFile-6ren

scala - 在 yarn 簇上使用带有管道的 addFile

转载作者：行者123 更新时间：2023-12-01 02:11:49

我一直在成功地将 pyspark 与我的 YARN 集群一起使用。我的工作
这样做涉及使用 RDD 的管道命令通过二进制发送数据
我做了。我可以像这样在 pyspark 中轻松做到这一点(假设 'sc' 是
已经定义):

sc.addFile("./dumb_prog") 
t= sc.parallelize(range(10))
t.pipe("dumb_prog")
t.take(10) # Gives expected result

但是，如果我在 Scala 中做同样的事情，管道命令会得到一个 'Cannot
运行程序 "dumb_prog": error=2, No such file or directory' 错误。这是
Scala shell 中的代码:

sc.addFile("./dumb_prog")
val t = sc.parallelize(0 until 10)
val u = t.pipe("dumb_prog")
u.take(10)

为什么这只适用于 Python 而不适用于 Scala？有没有办法
让它在 Scala 中工作？

以下是 Scala 方面的完整错误消息:

[59/3965]
14/09/29 13:07:47 INFO SparkContext: Starting job: take at <console>:17
14/09/29 13:07:47 INFO DAGScheduler: Got job 3 (take at <console>:17) with 1
output partitions (allowLocal=true)
14/09/29 13:07:47 INFO DAGScheduler: Final stage: Stage 3(take at
<console>:17)
14/09/29 13:07:47 INFO DAGScheduler: Parents of final stage: List()
14/09/29 13:07:47 INFO DAGScheduler: Missing parents: List()
14/09/29 13:07:47 INFO DAGScheduler: Submitting Stage 3 (PipedRDD[3] at pipe
at <console>:14), which has no missing parents
14/09/29 13:07:47 INFO MemoryStore: ensureFreeSpace(2136) called with
curMem=7453, maxMem=278302556
14/09/29 13:07:47 INFO MemoryStore: Block broadcast_3 stored as values in
memory (estimated size 2.1 KB, free 265.4 MB)
14/09/29 13:07:47 INFO MemoryStore: ensureFreeSpace(1389) called with
curMem=9589, maxMem=278302556
14/09/29 13:07:47 INFO MemoryStore: Block broadcast_3_piece0 stored as bytes
in memory (estimated size 1389.0 B, free 265.4 MB)
14/09/29 13:07:47 INFO BlockManagerInfo: Added broadcast_3_piece0 in memory
on 10.10.0.20:37574 (size: 1389.0 B, free: 265.4 MB)
14/09/29 13:07:47 INFO BlockManagerMaster: Updated info of block
broadcast_3_piece0
14/09/29 13:07:47 INFO DAGScheduler: Submitting 1 missing tasks from Stage 3
(PipedRDD[3] at pipe at <console>:14)
14/09/29 13:07:47 INFO YarnClientClusterScheduler: Adding task set 3.0 with
1 tasks
14/09/29 13:07:47 INFO TaskSetManager: Starting task 0.0 in stage 3.0 (TID
6, SERVERNAME, PROCESS_LOCAL, 1201 bytes)
14/09/29 13:07:47 INFO BlockManagerInfo: Added broadcast_3_piece0 in memory
on SERVERNAME:57118 (size: 1389.0 B, free: 530.3 MB)
14/09/29 13:07:47 WARN TaskSetManager: Lost task 0.0 in stage 3.0 (TID 6,
SERVERNAME): java.io.IOException: Cannot run program "dumb_prog": error=2,
No such file or directory
    java.lang.ProcessBuilder.start(ProcessBuilder.java:1041)
    org.apache.spark.rdd.PipedRDD.compute(PipedRDD.scala:119)
    org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:262)
    org.apache.spark.rdd.RDD.iterator(RDD.scala:229)
    org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:62)
    org.apache.spark.scheduler.Task.run(Task.scala:54)

最佳答案

我在 Yarn 客户端模式下的 spark 1.3.0 中遇到了类似的问题。当我查看应用程序缓存目录时，即使使用 --files，该文件也永远不会被推送到执行程序。 .但是当我添加以下内容时，它确实推送到了每个执行程序:

sc.addFile("dumb_prog",true)
t.pipe("./dumb_prog")

我认为这是一个错误，但以上让我解决了这个问题。

关于scala - 在 yarn 簇上使用带有管道的 addFile，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28688886/

文章推荐： cmake - 您如何在 CMake 中解析优化/调试库字符串？

文章推荐： javascript - 动态创建的 html 元素呈现为文本

文章推荐： javascript - 替换包含的 标记中的文本

文章推荐： tfs - 如何针对我的 Visual Studio Team Services 项目运行 TFS 命令行？

javascript - 对象不支持属性或方法 'AddFill'
我在多个页面上使用 Coldfusion Grid 程序时遇到问题，网格无法显示。最初我们得到一个“'EXT' 是未定义的错误”，但是在更新我们的脚本文件时我们现在得到一个“对象不支持属性或方法'Ad

Javascript 错误 addFiles() 不是函数
因此，当我单击 addFiles 按钮时，我在 firebug 中收到一个错误，内容为 "TypeError: addFiles is not a function." 这对我来说没有任何意义，因为如

c# - RestSharp AddFile 将多部分表单标题添加到文件
我正在使用 RestSharp 的 AddFile，它工作得很好，除了我的文件由于添加的这个头信息而最终被破坏。 -------------------------------289477580292

apache-spark - SparkContext.addFile 将文件上传到驱动节点而不是工作节点
我尝试在集群上运行 sc.texfile("file:///.../myLocalFile.txt")，但出现了 java.io.FileNotFoundException在 worker 身上。所

wcf - 使用 RESTSharp 上传图像(addFile)
我想通过 Windows Azure 上托管的 Web 服务从我的 Windows Phone 发送图片。为了与我的服务进行通信，我使用 RESTSharp，并且我看到有一个名为 addFile 的方

c# - RestSharp AddFile 使用 Stream
我正在使用 RestSharp(Visual Studio 2013 中的版本 105.2.3.0，.net 4.5)来调用 NodeJS 托管的 Web 服务。我需要调用的电话之一是上传文件。使用

scala - 在 yarn 簇上使用带有管道的 addFile
我一直在成功地将 pyspark 与我的 YARN 集群一起使用。我的工作这样做涉及使用 RDD 的管道命令通过二进制发送数据我做了。我可以像这样在 pyspark 中轻松做到这一点(假设 'sc

javascript - 拖放区 : prevent addfile twice
我正在使用 dropzone 将图像上传到画廊。我正在通过按钮提交。是否可以防止两次添加相同的文件？我不太确定是检查名称还是名称和大小。这是我的代码: var i = 0;

python - pySpark addfile 选项，执行器中的工作人员会发生什么
很明显，为了更好地分发小型查找数据，使用广播变量。假设我们在yarn客户端模式下从主节点运行pySpark代码(spark提交)。因此应用程序驱动程序将始终在主节点上创建。我们从主节点上的本地路径读

Hadoop Spark (Mapr) - AddFile 它是如何工作的
我想了解 hadoop 是如何工作的。假设我在 hdfs 上有 10 个目录，它包含 100 个我想用 spark 处理的文件。在书中 - 使用 Spark 进行快速数据处理这要求文件在集群中的所

apache-spark - 如何覆盖使用 SparkContext.addFile 添加的文件？
我正在尝试使用 sc.addFile 将文件添加到所有工作节点。但是，我发现它无法覆盖同一个文件。有什么方法可以通过 sc.addFile 覆盖文件吗？最佳答案配置为spark.files.ove

apache-spark - 如何覆盖使用 SparkContext.addFile 添加的文件？
我正在尝试使用 sc.addFile 将文件添加到所有工作节点。但是，我发现它无法覆盖同一个文件。有什么方法可以通过 sc.addFile 覆盖文件吗？最佳答案配置为spark.files.ove

javascript - 如何从 FineUploader.addFiles 获取 fileID
我在核心模式下使用 FineUploader(它工作得非常好——我怎么推荐都不为过)。当我从代码中的其他地方调用 addFiles(file) 时，我想在 uploader 中找出分配给该文件的 I

php - 使用 zipArchive addFile() 不会将图像添加到 zip
我在这方面已经有一段时间了。这实际上工作了一次，然后就再也没有了。它根本不会创建 zip 文件。该文件确实存在。 $zip = new ZipArchive(); $filename = "./tes

net.lingala.zip4j.core.ZipFile.addFile()方法的使用及代码示例
本文整理了Java中net.lingala.zip4j.core.ZipFile.addFile()方法的一些代码示例，展示了ZipFile.addFile()的具体用法。这些代码示例主要来源于Git

net.lingala.zip4j.core.ZipFile.addFiles()方法的使用及代码示例
本文整理了Java中net.lingala.zip4j.core.ZipFile.addFiles()方法的一些代码示例，展示了ZipFile.addFiles()的具体用法。这些代码示例主要来源于G

cn.hutool.core.util.ZipUtil.addFile()方法的使用及代码示例
本文整理了Java中cn.hutool.core.util.ZipUtil.addFile()方法的一些代码示例，展示了ZipUtil.addFile()的具体用法。这些代码示例主要来源于Github

org.dihedron.core.zip.ZipArchive.addFile()方法的使用及代码示例
本文整理了Java中org.dihedron.core.zip.ZipArchive.addFile()方法的一些代码示例，展示了ZipArchive.addFile()的具体用法。这些代码示例主要来

perl Digest add addfile 计算不同的 SHA1 摘要
perl Digest模块为 add 计算不同的 SHA1 摘要和 addfile职能。我使用 /dev/urandom 创建了二进制随机数据在 ubuntu 上运行 $ lsb_release

org.codehaus.plexus.archiver.zip.ZipArchiver.addFile()方法的使用及代码示例
本文整理了Java中org.codehaus.plexus.archiver.zip.ZipArchiver.addFile()方法的一些代码示例，展示了ZipArchiver.addFile()的具

行者123

个人简介
我是一名优秀的程序员,十分优秀！

作者热门文章

html - 出于某种原因，IE8 对我的 Sass 文件中继承的 html5 CSS 不友好？

JMeter 在响应断言中使用 span 标签的问题

html - 在 :hover and :active? 上具有不同效果的 CSS 动画

html - 相对于居中的 html 内容固定的 CSS 重复背景？

滴滴打车优惠券免费领取

全站热门文章

巧用mask属性创建一个纯CSS图标库

Java代码覆盖率super-jacoco

armmattermost

Vulnhub经典靶机：from_sqli_to_shell_i386入门靶机

【Rive】波动文字

Vscode实现应用qss样式表

DocforDevNow

干掉EasyExcel！FastExcel初体验

爬虫自动化脚本+AI赋能

快手后端面试，被面试官秒挂了！

首页

博学

6Ren·AI

商城

scala - 在 yarn 簇上使用带有管道的 addFile