java - 线程 "main"org.apache.spark.SparkException : Task not serializable 中出现异常-6ren

java - 线程 "main"org.apache.spark.SparkException : Task not serializable 中出现异常

转载作者：行者123 更新时间：2023-12-01 10:06:49

26

4

你好

我正在使用Scala 2.11.8 和 Spark 1.6.1。每当我在 map 中调用函数时，它都会抛出以下异常:

"Exception in thread "main" org.apache.spark.SparkException: Task not serializable"

您可以在下面找到我的完整代码

package moviestream.recommender
import java.io
import java.io.Serializable

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.mllib.recommendation.ALS
import org.apache.spark.mllib.recommendation.Rating
import org.jblas.DoubleMatrix


class FeatureExtraction{

  val conf = new SparkConf().setMaster("local[2]").setAppName("Recommendation")
  val sc = new SparkContext(conf)
  val rawData = sc.textFile("data/u.data")
  val rawRatings = rawData.map(_.split("\t").take(3))

  //create rating object from rawratings
  val ratings = rawRatings.map{case Array(user,movie,rating) => Rating(user.toInt,movie.toInt,rating.toDouble)}
  //user Spark ALS library to train our model
  // Build the recommendation model using ALS

  val model = ALS.train(ratings,50,10,0.01)
  //val model = ALS.trainImplicit(ratings,50,10,0.01,0.1) //last parameter is alpha
  val predictedRating = model.predict(789,123)
  //top ten recommended movies for user id 789, where k= number of recommended(10) 789=userid
  val topKRecs = model.recommendProducts(789,10)
  val movies = sc.textFile("data/u.item")
  val titles = movies.map(line=>line.split("\\|").take(2)).map(array=>(array(0).toInt,array(1))).collectAsMap()
  //how many    movies  this    user    has rated
  val moviesForUser = ratings.keyBy(_.user).lookup(789)
  //we  will    take    the 10  movies  with    the highest ratings ction   using   the     field   of  the     object.
  //moviesForUser.sortBy(-_.rating).take(10).map(rating=>(titles(rating.product),rating.rating)).foreach(println)
  //let’s   take    a   look    at  the top 10  recommendations for this    user    and see what    the titles
  //topKRecs.map(rating=>(titles(rating.product),rating.rating)).foreach(println)
  //    we  will    then    need    to  create  a   DoubleMatrix    object

  val itemId = 567
  val itemFactor = model.productFeatures.lookup(itemId).head
  val itemVector = new  DoubleMatrix(itemFactor)


  //we  are ready   to  apply   our similarity  metric  to  each    item
  /*val sims = model.productFeatures.map{ case (id, factor) =>
    val factorVector = new DoubleMatrix(factor)
    val sim = cosineSimilarity(factorVector, itemVector)
    (id, sim)
  }*/

  //we can  compute the top 10  most    similar items   by  sorting out the similarity  score   for each    item
  //val sortedSims = sims.top(10)(Ordering.by[(Int,Double),Double]{case(id,similarity)=>similarity})

  //we  can sense   check   our item-to-item    similarity
  //val sortedSims2 = sims.top(11)(Ordering.by[(Int,Double),Double]{case(id,similarity)=>simintellij idea debugilarity})
  //sortedSims2.slice(1,11).map{case (id,sim)=>(titles(id),sim)}.foreach(println)
  //Finally,we  can print   the 10  items   with    the highest computed    similarity  metric  to  our given item:
  //println("Result = "+titles(123))

  def cosineSimilarity(vect1:DoubleMatrix,vect2:DoubleMatrix): Double = {
    vect1.dot(vect2)/(vect1.norm1()*vect2.norm2())
  }

  val actualRating = moviesForUser.take(1)(0)
  val predictedRatings = model.predict(789,actualRating.product)
  //println(predictedRatings)
  val squaredError = math.pow(predictedRatings - actualRating.rating,2.0)

  val usersProducts = ratings.map{case Rating(user,product,rating) => (user,product)}
  val predictions = model.predict(usersProducts).map{case Rating(user,product,rating)
                          =>((user,product),rating)}
  val ratingsAndPredictions = ratings.map{case Rating(user,product,rating)=>((user,product),rating)}
                                     .join(predictions)
  val MSE = ratingsAndPredictions.map{case ((user,product),(actual,predicted))
          => math.pow((actual-predicted),2)}.reduce(_ + _)/ratingsAndPredictions.count()
  //println("Mean Squared Error = " + MSE)
  val RMSE = math.sqrt(MSE)
  println("Root Mean Squared Error = "+ RMSE)
  def avgPrecisionK(actual:Seq[Int],predicted:Seq[Int],k:Int):Double = {
    val predk = predicted.take(k)
    var score = 0.0
    var numHits = 0.0
    for((p,i)<- predk.zipWithIndex){
      if(actual.contains(p)){
        numHits += 1.0
        score += numHits/(i.toDouble+1.0)
      }
    }
    if(actual.isEmpty) {
      1.0
    }
    else{
      score/scala.math.min(actual.size,k).toDouble
    }


  }

  val actualMovies = moviesForUser.map(_.product)
  val predictedMovies = topKRecs.map(_.product)
 //predictedMovies.foreach(println)
  val apk10 = avgPrecisionK(actualMovies,predictedMovies,10)
  //println(apk10)
  //Locality Sensitive Hashing
  val itemFactors = model.productFeatures.map{case (id,factor)=>factor}.collect()
  val itemMatrix = new  DoubleMatrix(itemFactors)
  //println(itemMatrix.rows,itemMatrix.columns)
  val imBroadcast = sc.broadcast(itemMatrix)
  //println(imBroadcast)
  val allRecs = model.userFeatures.map{case (userId,array)=>
                val userVector = new  DoubleMatrix(array)
                val scores = imBroadcast.value.mmul(userVector)
                val sortedWithId = scores.data.zipWithIndex.sortBy(- _._1)
                val recommendedIds = sortedWithId.map(_._2 +1).toSeq
                (userId,recommendedIds)
  }
  println(allRecs)


}

最佳答案

正如上面评论中提到的，这个问题太宽泛了。但一个猜测可能会有所帮助。您在map内部使用广播值imBroadcast。我猜它包含在与 SparkContext 相同作用域中声明的函数，对吗？然后将它们移动到单独的对象。

关于java - 线程 "main"org.apache.spark.SparkException : Task not serializable 中出现异常，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36384714/

26

4

0

文章推荐： java - 将 fragment 置于绝对布局中的前面

文章推荐： java - HashMap 条目将整个包名称作为值而不是所需的值

文章推荐： Java hdf5 库安装

schema.org - Schema.org、Goodrelations-vocabulary.org 和 Productontology.org 之间有什么关系？
Schema.org、Goodrelations-vocabulary.org 和 Productontology.org 之间有什么关系？ Schema.org 告知，“W3C schema.org
java - 为什么 org.ietf、org.omg、org.w3c 和 org.xml 是 POJO 的一部分？
大家好，我想知道包 org.ietf、org.omg、org.w3c 和 org 是如何实现的.xml 已进入 "official" Java classes ？例如，默认 JDK 不会包含 Apa
schema.org - DBpedia.org 本体与 Schema.org 本体
首先，我试图用来自 Schema.org 的属性定义数据库表，例如，例如，我有一个名为“JobPosting”的表，它或多或少具有与 http://schema.org/JobPosting 中定义的
java - 通过 org.w3c.dom.Element 对象作为 org.dom4j.Document 上的参数查找(将 org.w3c.dom.Element 转换为 org.dom4j.Element)
我有一个 org.w3c.dom.Document 被 org.dom4j.io.DOMReader 解析。我想通过 org.w3c.dom.Element 搜索 dom4j DOM 文档。比方说
java - 无法解析 - org.dom4j.DocumentException : org. dom4j.DocumentFactory 无法转换为 org.dom4j.DocumentFactory
我正在将我的应用程序部署到 Tomcat 6.0.20。应用程序使用 Hibernate 作为 Web 层的 ORM、Spring 和 JSF。我还从 main() 方法制作了简单的运行器来测试
deployment - 由 : org. dom4j.DocumentException 引起 : org. dom4j.DocumentFactory 无法转换为 org.dom4j.DocumentFactory
我有一个使用 hibernate > 4 的 gradle 项目。如果我在 Apache tomcat 中运行我的 war 文件，我不会收到任何错误。但是当我在 Wildfly 8.2 中部署它时，出
Android Studio : Could not find org. jacoco :org. jacoco.agent :org. gradle.testing.jacoco.plugins.JacocoPluginExtension_Decorated
我正在尝试将 JaCoCo 添加到我的 Android 以覆盖 Sonar Qube。但是在运行命令 ./gradlew jacocoTestReport 时，我收到以下错误。 Task :app:
org-mode - 在 org 模式下格式化日期
如何在 emacs 组织模式中格式化日期？例如，在下表中，我希望日期显示为“Aug 29”或“Wed, Aug 29”而不是“” #+ATTR_HTML: border="2" rules="all
org-mode - 在 org 文件中包含代码片段
我想使用 org 模式来写一本技术书籍。我正在寻找一种将外部文件中的现有代码插入到 babel 代码块中的方法，该代码块在导出为 pdf 时会提供很好的格式。例如 #+BEGIN_SRC pytho
schema.org - schema.org 中的产品类别？
用作引用:https://support.google.com/webmasters/answer/146750?hl=en 您会注意到在“产品”下有一个属性类别，此外页面下方还有一个示例: Too
schema.org - Schema.org 中的产品列表
我读了这个Google doc .它说我们不使用列表中的产品。那么对于产品列表(具有多页的类似产品的类别，如“鞋子”)，推荐使用哪种模式？我用这个: { "@context": "htt
schema.org - schema.org 数据集和维基数据之间是否存在映射？
我目前在做DBpedia数据集，想通过wikidata实现schema.org和DBpedia的映射。因此我想知道 schema.org 和 wikidata 之间是否存在任何映射。最佳答案我认为
org-mode - org-mode 表内的代码块
我爱org-tables ，我用它们来记录各种事情。我现在正在为 Nix 记录一些单行代码(在阅读了 Domen Kožar 的 excellent guide 后，在 this year's Eur
schema.org - schema.org 中的多个作者或贡献者
如果看一下 Movie在 schema.org 中输入，actor 和 actors 属性都是允许的(actor 取代 actors)。但是 author 和 contributor 属性没有等效项。
schema.org - Schema.org 中的多家餐厅
我们有一些餐厅有多个地点或分支机构。我想包含正确的 Schema.org 标记，但找不到任何允许列出多个餐厅的内容。每家餐厅都有自己的地址、电子邮件、电话和营业时间，甚至可能是“分店名称”。两个分
schema.org - Schema.org 的多个综合评级
我在一个页面中有多个综合评分片段。有没有办法让其中之一成为默认值？将显示在搜索引擎结果中的那个？谢谢大家! 更新:该网页本质上是品牌的页面。它包含品牌评论的总评分及其产品列表(每个产品的总评分)。
java - org.apache.maven.archiver.MavenArchiver.getManifest(org.apache.maven.project.MavenProject，org.apache.maven.archiver.MavenArchiveConfiguration)
我提到了一些相关的职位，但并没有解决我的问题。因为我正在使用maven-jar-plugin-2.4 jar。我正在使用JBoss Developer Studio 7.1.1 GA IDE，并且正
schema.org - 个人网站是否应该将根页面标记为 schema.org 'Person' ？
网站的根页面(即 http://example.com/ )的特殊之处在于它是默认的着陆页。它可能包含许多不同的对象类型。它可能被认为是一个网站，或者一个博客等... 但它是否也应该被标记为给定对象
org-mode - 如何隐藏一些文本不被 org-publish-* 函数发布？
我想将一些文本放入一个 org 文件中，当我将内容导出到其中一种目标类型(在本例中为 HTML)时，该文件不会发布。有什么方法可以实现这个目标吗？最佳答案您可能想要使用 :noexport: 标签
org-mode - 在 org-mode 的编号列表中的步骤之间移动
org-mode 是否有一个键绑定(bind)可以在编号/项目符号列表项之间移动，就像您可以对标题一样？喜欢的功能: org-forward-heading-same-level 大纲下一个可见标题

首页

博学

6Ren·AI

商城

java - 线程 "main"org.apache.spark.SparkException : Task not serializable 中出现异常