scala - SparkContext 在伴随对象内不可序列化-6ren

scala - SparkContext 在伴随对象内不可序列化

转载作者：行者123 更新时间：2023-12-04 18:04:59

26

4

我目前正在尝试扩展使用 Scala 和 Spark 的机器学习应用程序。我正在使用我在 Github 上找到的迪特里希·劳森 (Dieterich Lawson) 以前项目的结构

https://github.com/dieterichlawson/admm

该项目基本上使用 SparkContext 构建训练样本块的 RDD，然后对这些集合中的每一个执行本地计算(例如求解线性系统)。

我遵循相同的方案，但对于我的本地计算，我需要对每个训练样本块执行 L-BFGS 算法。为此，我想使用来自 mlLib 的 L-BFGS 算法，该算法具有以下签名。

runLBFGS(RDD<scala.Tuple2<Object,Vector>> data, Gradient gradient, 
         Updater updater, int numCorrections, double convergenceTol, 
         int maxNumIterations, double regParam, Vector initialWeights)

正如它所说，该方法将训练样本的 RDD[Object,Vector] 作为输入。问题是在每个 worker 本地我不再保留数据的 RDD 结构。因此，我试图在矩阵的每个块上使用 SparkContext 的并行化函数。但是当我这样做时，我得到了一个序列化程序异常。 (确切的异常消息在问题的末尾)。

这是关于我如何处理 SparkContext 的详细说明。

首先，在主应用程序中，它用于打开一个文本文件，并在类 LogRegressionXUpdate 的工厂中使用:

val A = sc.textFile("ds1.csv")
A.checkpoint
val f = LogRegressionXUpdate.fromTextFile(A,params.rho,1024,sc)

在应用中，类LogRegressionXUpdate实现如下

class LogRegressionXUpdate(val training: RDD[(Double, NV)],
                           val rho: Double) extends Function1[BDV[Double],Double] with Prox  with Serializable{

def prox(x: BDV[Double], rho: Double): BDV[Double] = {
    val numCorrections = 10
    val convergenceTol = 1e-4
    val maxNumIterations = 20
    val regParam = 0.1
    val (weights, loss) = LBFGS.runLBFGS(
        training,
        new GradientForLogRegADMM(rho,fromBreeze(x)),
        new SimpleUpdater(),
        numCorrections,
        convergenceTol,
        maxNumIterations,
        regParam,
        fromBreeze(x))
    toBreeze(weights.toArray).toDenseVector
}

def apply(x: BDV[Double]): Double = {
    Math.pow(1,2.0)
}

}

使用以下伴随对象:

object LogRegressionXUpdate {
    def fromTextFile(file: RDD[String], rho: Double, blockHeight: Int = 1024, @transient sc: SparkContext): RDF[LogRegressionXUpdate] = {
        val fns = new BlockMatrix(file, blockHeight).blocks.
        map(X => new LogRegressionXUpdate(sc.parallelize((X(*,::).map(fila => (fila(-1),fromBreeze(fila(0 to -2))))).toArray),rho))
        new RDF[LogRegressionXUpdate](fns, 0L)
    }
}

尽管我并不是真的需要 SparkContext 在本地构建每个 RDD，但这个构造函数会导致序列化错误。我已经搜索了这个问题的解决方案，但添加 @transient 并没有解决它。
然后，我的问题是:是否真的有可能构建这些“第二层 RDD”，或者我被迫执行 L-BFGS 算法的非分布式版本。
提前致谢!

错误日志:

Exception in thread "main" org.apache.spark.SparkException: Task not serializable
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:315)
at org.apache.spark.util.ClosureCleaner$.org$apache$spark$util$ClosureCleaner$$clean(ClosureCleaner.scala:305)
at org.apache.spark.util.ClosureCleaner$.clean(ClosureCleaner.scala:132)
at org.apache.spark.SparkContext.clean(SparkContext.scala:1891)
at org.apache.spark.rdd.RDD$$anonfun$map$1.apply(RDD.scala:294)
at org.apache.spark.rdd.RDD$$anonfun$map$1.apply(RDD.scala:293)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:148)
at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:109)
at org.apache.spark.rdd.RDD.withScope(RDD.scala:286)
at org.apache.spark.rdd.RDD.map(RDD.scala:293)
at admm.functions.LogRegressionXUpdate$.fromTextFile(LogRegressionXUpdate.scala:70)
at admm.examples.Lasso$.run(Lasso.scala:96)
at admm.examples.Lasso$$anonfun$main$1.apply(Lasso.scala:70)
at admm.examples.Lasso$$anonfun$main$1.apply(Lasso.scala:69)
at scala.Option.map(Option.scala:145)
at admm.examples.Lasso$.main(Lasso.scala:69)
at admm.examples.Lasso.main(Lasso.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:497)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:140)
Caused by: java.io.NotSerializableException: org.apache.spark.SparkContext
Serialization stack:
- object not serializable (class: org.apache.spark.SparkContext, value: org.apache.spark.SparkContext@20576557)
- field (class: admm.functions.LogRegressionXUpdate$$anonfun$1, name: sc$1, type: class org.apache.spark.SparkContext)
- object (class admm.functions.LogRegressionXUpdate$$anonfun$1, <function1>)
at org.apache.spark.serializer.SerializationDebugger$.improveException(SerializationDebugger.scala:40)
at org.apache.spark.serializer.JavaSerializationStream.writeObject(JavaSerializer.scala:47)
at org.apache.spark.serializer.JavaSerializerInstance.serialize(JavaSerializer.scala:81)
at org.apache.spark.util.ClosureCleaner$.ensureSerializable(ClosureCleaner.scala:312)
... 21 more

最佳答案

RDD s 只能从驱动程序访问。每当你调用类似的东西

myRDD.map(someObject.someMethod)

spark 序列化计算 someMethod 所需的任何内容，并将其发送给工作人员。在那里，该方法被反序列化，然后在每个分区上独立运行。

但是，您尝试使用一种本身使用 spark 的方法:您尝试创建一个新的 RDD。但是，这是不可能的，因为它们只能在驱动程序中创建。您看到的错误是 spark 尝试序列化 spark 上下文本身，因为每个块的计算都需要它。有关序列化的更多信息可以在 this 的第一个答案中找到。题。

“...虽然我真的不需要 SparkContext 在本地构建每个 RDD” - 实际上这正是您在调用 sc.parallelize 时所做的事情.底线 - 您需要找到(或编写)L-BFGS 的本地实现。

关于scala - SparkContext 在伴随对象内不可序列化，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31448069/

26

4

0

文章推荐： elixir - 为什么这个 Elixir 代码这么慢？

文章推荐： ember.js - 在 ember 集成测试中模拟选择选择

文章推荐： asp.net - 在 ASP.NET 5 中跨子域共享身份验证 Cookie

文章推荐： emacs - 如何高效地查找 Coq 中定义的标识符？

scala - 如何在打开新的 SparkContext 之前停止正在运行的 SparkContext
我正在使用 Spark 在 Scala 中执行测试，创建 SparkContext 如下: val conf = new SparkConf().setMaster("local").setAppNa
scala - 错误 SparkContext : Error initializing SparkContext
我正在使用 spark-1.5.0-cdh5.6.0 .尝试了示例应用程序 (scala) 命令是: > spark-submit --class com.cloudera.spark.simbox.
hadoop - Spark 提交 :ERROR SparkContext: Error initializing SparkContext
我正在尝试在 Hadoop YARN 客户端模式下运行我的 spark 作业，我正在使用以下命令 $/usr/hdp/current/spark-client/bin/spark-submit -
java - 错误 SparkContext : Error initializing SparkContext. 。 IntelliJ 和 Scala
我使用的是 Window 10、Scala 2.10.2、Spark 1.6.1 和 Java 1.8。下面是我尝试运行的代码。 import org.apache.spark.SparkCont
apache-spark - PySpark-SparkContext : Error initializing SparkContext File does not exist
我在 PySpark 中有一小段代码，但我不断收到错误。我是新手，所以我不确定从哪里开始。 from pyspark import SparkContext, SparkConf conf = Spa
scala - 异常 : ERROR SparkContext - Error initializing local SparkContext. java.net.BindException
我正在尝试为 spark 应用程序编写测试，但在尝试运行下一个测试时出现此异常 class BasicIT { val sparkConf: SparkConf = new Sp
scala - 错误 SparkContext : Error initializing SparkContext. java.net.BindException:无法分配请求的地址:服务 'sparkDriver' 失败
这个问题已经有答案了: Mac spark-shell Error initializing SparkContext (13 个回答) 已关闭2 年前。我已经安装了以下版本的设置:Hadoop版本
java - 错误 SparkContext : Error initializing SparkContext. java.lang.IllegalArgumentException:系统内存 259522560 必须至少为 471859200
所以我是 Spark 新手。我的版本是:Spark 2.1.2、Scala 版本 2.11.8(Java HotSpot(TM) 64 位服务器 VM、Java 1.8.0_131)。我在 Windo
scala - SparkContext 在伴随对象内不可序列化
我目前正在尝试扩展使用 Scala 和 Spark 的机器学习应用程序。我正在使用我在 Github 上找到的迪特里希·劳森 (Dieterich Lawson) 以前项目的结构 https://gi
azure - 您似乎正在尝试从广播中引用 SparkContext
我正在尝试使用 Spark 结构化流处理一些事件。传入事件如下所示: 事件1: 网址http://first/path/to/read/from... 事件2: 网址http://second/pa
scala - SparkContext textFile的InputPath语法
请告诉我我该如何使用 SparkContext 指定textFile()的输入路径。像下面这样对我不起作用。 sc.textFile("hdfs://localhost:54310/home/myFi
azure - 您似乎正在尝试从广播中引用 SparkContext
我正在尝试使用 Spark 结构化流处理一些事件。传入事件如下所示: 事件1: 网址http://first/path/to/read/from... 事件2: 网址http://second/pa
java - 如何使用自定义属性初始化 SparkContext？
我正在使用 Spark-shell 学习 Spark。当从终端运行spark-shell时，默认已经提供了一个sparkContext。我想向 Spark 上下文添加一些手动设置(例如 setMas
python - 无法同时运行多个 SparkContext
我正处于学习spark的初级阶段。我刚刚开始使用 pyspark 使用 python 进行编码。在浏览基本代码时，我在 Jupyter 笔记本上遇到了此错误。好吧，我已经在我的电脑上安装了 Spark
java - SparkContext.wholeTextFiles之后如何单独处理多个文件？
我正在尝试使用wholeTextFiles读取文件夹中的所有文件名并单独处理它们(例如，我正在尝试获取每个数据集的SVD vector ，总共有100组)。数据保存在按空格分割并排列在不同行(如矩阵)
python - 无法导入 SparkContext
我在 CentOS 上工作，我已经设置了 $SPARK_HOME 并且还在 $PATH 中添加了 bin 的路径。我可以从任何地方运行 pyspark。但是当我尝试创建 python 文件并使用此
python - 如何停止 SparkContext
如何停止当前运行的任何 Spark 上下文。信息API:斯卡拉Spark版本:Spark 2.3 实际上我已经创建了 Spark 上下文。为了阻止他们我应该输入例如instance.stop() 但
java - SparkContext setLocalProperties
作为 this question 的延续, 你能告诉我我可以从 SparkContext.setLocalProperties 更改哪些属性吗？？我可以更换内核、RAM 等吗？最佳答案根据文档
scala - 未找到 SparkContext 类错误
我正在尝试使用 intellij 在 spark 上运行 Scala 代码。 Scala 代码 import scala.collection.JavaConverters._ import org.
scala - 查找当前正在运行的 SparkContext 的名称
我发誓我以前做过，但我找不到代码或答案。我想获取当前正在运行的 SparkContext 的名称并将其读入变量或将其打印到屏幕上。类似于以下内容: val myContext = SparkConte

首页

博学

6Ren·AI

商城

scala - SparkContext 在伴随对象内不可序列化