gpt4 book ai didi

exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException

转载 作者:可可西里 更新时间:2023-11-01 15:35:48 32 4
gpt4 key购买 nike

我正在尝试在我使用他们提供的 Spark-ec2 脚本创建的 Spark 集群上运行我的 Spark 作业。我能够运行 SparkPi 示例,但每当我运行我的工作时,我都会收到此异常:

Exception in thread "main" java.io.IOException: Call to ec2-XXXXXXXXXX.compute-1.amazonaws.com/10.XXX.YYY.ZZZZ:9000 failed on local exception: java.io.EOFException
at org.apache.hadoop.ipc.Client.wrapException(Client.java:1107)
at org.apache.hadoop.ipc.Client.call(Client.java:1075)
at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:225)
at com.sun.proxy.$Proxy6.setPermission(Unknown Source)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
at com.sun.proxy.$Proxy6.setPermission(Unknown Source)
at org.apache.hadoop.hdfs.DFSClient.setPermission(DFSClient.java:1042)
at org.apache.hadoop.hdfs.DistributedFileSystem.setPermission(DistributedFileSystem.java:531)
at org.apache.spark.util.FileLogger.createLogDir(FileLogger.scala:93)
at org.apache.spark.util.FileLogger.start(FileLogger.scala:70)
at org.apache.spark.scheduler.EventLoggingListener.start(EventLoggingListener.scala:71)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:252)
at com.here.traffic.collection.archiver.IsoCcMergeJob$.isoMerge(IsoCcMergeJob.scala:55)
at com.here.traffic.collection.archiver.IsoCcMergeJob$.main(IsoCcMergeJob.scala:11)
at com.here.traffic.collection.archiver.IsoCcMergeJob.main(IsoCcMergeJob.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:606)
at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:292)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:55)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.io.EOFException
at java.io.DataInputStream.readInt(DataInputStream.java:392)
at org.apache.hadoop.ipc.Client$Connection.receiveResponse(Client.java:804)
at org.apache.hadoop.ipc.Client$Connection.run(Client.java:749)

根据我在互联网上寻找解决方案时所读到的内容,它看起来可能与 Hadoop 库版本不匹配,但我确认 Spark 使用的是 1.0.4 并且我的作业是使用相同版本编译的。

为了提供更多上下文,我的工作是对 S3 中的两个文件进行左外连接,然后将结果再次放入 S3。

任何想法可能是错误的?

最佳答案

我在使用 ec2 脚本时有类似的经历,一旦我们将 cloudera distros (5.1) 用于集群(通过一个简单的 apt-get)和 jar 依赖项,几乎所有版本问题都消失了。

安装 Spark : http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH5-Installation-Guide/cdh5ig_spark_installation.html

添加 spark 作为依赖项(搜索文本“spark”):

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH5/latest/CDH-Version-and-Packaging-Information/cdhvd_cdh5_maven_repo.html

关于exception - AWS EC2 上的 Spark 在开始我的工作时抛出 EOFException,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25814218/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com