scala - 通过Spark写入HBase : Task not serializable-6ren

scala - 通过Spark写入HBase : Task not serializable

转载作者：行者123 更新时间：2023-12-02 07:37:58

27

4

我正在尝试使用 Spark 1.0 在 HBase (0.96.0-hadoop2) 中写入一些简单的数据，但我不断遇到序列化问题。相关代码如下:

import org.apache.hadoop.hbase.client._
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.rdd.NewHadoopRDD
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.mapred.JobConf
import org.apache.spark.SparkContext
import java.util.Properties
import java.io.FileInputStream
import org.apache.hadoop.hbase.client.Put

object PutRawDataIntoHbase{
  def main(args: Array[String]): Unit = {
    var propFileName = "hbaseConfig.properties"
    if(args.size > 0){
      propFileName = args(0)
    }

    /** Load properties here **/
   val theData = sc.textFile(prop.getProperty("hbase.input.filename"))
     .map(l => l.split("\t"))
     .map(a => Array("%010d".format(a(9).toInt)+ "-" + a(0) , a(1)))

   val tableName = prop.getProperty("hbase.table.name")
   val hbaseConf = HBaseConfiguration.create()
   hbaseConf.set("hbase.rootdir", prop.getProperty("hbase.rootdir"))
   hbaseConf.addResource(prop.getProperty("hbase.site.xml"))
   val myTable = new HTable(hbaseConf, tableName)
   theData.foreach(a=>{
     var p = new Put(Bytes.toBytes(a(0)))
     p.add(Bytes.toBytes(hbaseColFamily), Bytes.toBytes("col"), Bytes.toBytes(a(1)))
      myTable.put(p)
    })
  }
}

运行代码结果:

Failed to run foreach at putDataIntoHBase.scala:79
Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task not serializable: java.io.NotSerializableException:org.apache.hadoop.hbase.client.HTable

用map替换foreach不会崩溃，但我也不写。任何帮助将不胜感激。

最佳答案

HBaseConfiguration 类表示与 HBase 服务器的连接池。显然，它无法被序列化并发送到工作节点。由于 HTable 使用此池与 HBase 服务器通信，因此它也无法序列化。

基本上，可以通过三种方法来处理这个问题:

在每个工作节点上打开连接。

注意foreachPartition方法的使用:

val tableName = prop.getProperty("hbase.table.name")
<......>
theData.foreachPartition { iter =>
  val hbaseConf = HBaseConfiguration.create()
  <... configure HBase ...>
  val myTable = new HTable(hbaseConf, tableName)
  iter.foreach { a =>
   var p = new Put(Bytes.toBytes(a(0)))
   p.add(Bytes.toBytes(hbaseColFamily), Bytes.toBytes("col"), Bytes.toBytes(a(1)))
    myTable.put(p)
  }
}

请注意，每个工作节点都必须有权访问 HBase 服务器，并且必须预先安装或通过 ADD_JARS 提供所需的 jar。

另请注意，由于如果为每个分区打开连接池，因此最好将分区数量大致减少到工作节点的数量(使用合并功能)。也可以在每个工作节点上共享一个 HTable 实例，但这并不是那么简单。

将所有数据序列化到单个盒子并写入HBase

可以用一台计算机写入 RDD 中的所有数据，即使数据不适合内存。详细信息在此答案中进行了解释:Spark: Best practice for retrieving big data from RDD to local machine

当然，它会比分布式写入慢，但它很简单，不会带来痛苦的序列化问题，如果数据大小合理，可能是最好的方法。

使用 HadoopOutputFormat

可以为 HBase 创建自定义 HadoopOutputFormat 或使用现有格式。我不确定是否有适合您需求的东西，但 Google 应该可以提供帮助。

P.S. 顺便说一下，map 调用不会崩溃，因为它不会被求值:RDD 不会被求值，直到你用 side- 调用一个函数。影响。例如，如果您调用 theData.map(....).persist，它也会崩溃。

关于scala - 通过Spark写入HBase : Task not serializable，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25250774/

27

4

0

文章推荐： qt - Qt Builder 是否有用于编辑工具栏的内置工具？

文章推荐： c# - Azure 表存储插入或合并

文章推荐： string - 替换字符串列表中的特殊字符和空格

文章推荐： ios - 将多个 block 参数传递给方法

java - "Serializable"类的子类自动为 "Serializable"吗？
实现了Serializable接口(interface)的类的子类是否也实现了Serializable？也就是说子类的实例也可以序列化吗？最佳答案 I wanted to ask whether t
database - Serializable 和 non Serializable 对象保存到数据库中的区别
当对象可序列化或不可序列化时，将数据对象保存到数据库有什么不同。例如:我有一个名为 Book 的域类 class Book implements Serializable{ private int
conflict - Conflict Serializable 和 Serializable 之间有什么区别？
我的理解是conflict serializable 隐含serializable。我不确定这如何让他们与众不同。可序列化是否意味着冲突可序列化？最佳答案冲突可序列化是可序列化的一个子集，因此仅仅
java - 为什么基类(不实现 Serializable)如果它的子类实现了 Serializable，就应该没有参数构造函数？
我正在阅读接口(interface) Serializable 的文档，我在其中找到以下几行: To allow subtypes of non-serializable classes to be
java - scala @Serializable 和 Java Serializable 有什么区别？
scala @Serializable 的 Action 方式与Java Serializable 不同吗？我的意思是序列化对象的方式还是两者都使用相同的标准序列化？最佳答案 Scala 可以编译
c# - c# 中 [Serializable] 和 [Serializable()] 之间有区别吗？
我遇到过使用这两种表示法中的任何一种的例子。我找不到关于它的任何信息，说明哪一个是常见的，为什么允许使用 2 个符号，以及两者之间是否存在任何细微差别。有人有想法吗？最佳答案不，没有功能差异。
java - 非实体变量: Fields in a "Serializable" class should either be transient or serializable
“可序列化”类中的字段应该是 transient 的或可序列化的，可以修复在另一个类中使用的任何实体/类，但当在甚至无法创建的 dto 类中声明 List/Map 时，就会发生这种情况也一样短暂。请让
java - Spark异常: Task not serializable (Even after class implements Serializable)
我面临任务不可序列化的问题，我检查了其他答案并使我的调用和调用类可序列化。我的代码就像 - public class MultiClassification implements Serializab
java - Android - Kotlin Serializable 与 Java Serializable，性能是否相同？
我到处都读到 Java Serializable 比 Parcelable 慢得多。 Kotlin Serializable 也是这样吗？或者 Kotlin Serializable 和 Kotlin
java - 是否可以将任何实现 java.io.serializable 的类添加到泛型的数组列表中
描述: 我有一个 ArrayList，它接受任何实现 Serializable 的类。我什至可以将实现 Serializable 的类的实例添加到这个数组列表中，而不会出现任何编译错误。 Java 泛
java - 如何在 Java 中测试一个类是否正确实现了 Serializable(不仅仅是 Serializable 的实例)
我正在实现一个可序列化的类(因此它是一个使用 RMI 的值对象)。但我需要测试它。有没有办法轻松做到这一点？澄清:我正在实现这个类，所以在类定义中粘贴 Serializable 很简单。我需要手动对
java - System.out.println ("Serializable: "+ arrayList instanceof Serialized) 不打印 'Serializable' 字
我尝试执行以下简单代码。 System.out.println() 不打印单词“Serialized:”。输出为true。 ArrayList arrayList = new ArrayList();
android - Serializable parcelable 问题 : RuntimeException: Parcelable encountered IOException writing serializable object
伙计们，我有一个最简单的类，我想成为 Parcelable。我正在按照以下方式进行: public class MyField implements Serializable, Parcelable
java - SonarLint V3 : Fields in a "Serializable" class should either be transient or serializable for List interface
我的问题与this 非常相似除了这个问题我在 SonarLint V3 (squid:S1948) 中遇到过。我的代码是: public class Page implements Serializ
java - 如何处理 Findbugs "Non-transient non-serializable instance field in serializable class"？
考虑下面的类(class)。如果我对它运行 Findbugs，它会在第 5 行但不在第 7 行给我一个错误(“可序列化类中的非 transient 非可序列化实例字段”)。 1 public clas
java - org.apache.spark.SparkException : Task not serializable, 除实现 java.io.Serializable 之外的任何其他解决方案
当我在 Spark(由 java 编写)应用程序中使用 UDF 函数时，出现此错误。 org.apache.spark.SparkException:任务不可序列化在 org.apache.spar
Serializer for class ... is not found. Please ensure that class is marked as '@Serializable' and that the serialization compiler plugin is applied(类的串行化程序...找不到。请确保该类被标记为‘@Serializable’并且应用了序列化编译器插件)
我正在使用KTOR框架在我的Android应用程序中发出http请求。我在运行项目时遇到错误。。插件：。依赖关系：。模型类：。接口调用：。我花了几个小时寻找解决方案。我遵循了许多线索，但都没有奏效。我
serializable - 可序列化与顺序一致性相同吗？
我发现有人回答了可线性化和可串行化之间的差异，但我没有发现有人说可串行化与顺序一致性相同或不同。此外，我在不同的文章、书籍和网页中对上述术语的不同定义感到震惊，我把这一切都搞糊涂了。有人可以解释可
Java序列化未实现 `Serializable`的字段
我读过几个相关的问题，但没有一个是更有趣的情况。这是我的问题，假设我有课 class A implements Serializable { private int a; priva
java - 为什么要在模型上实现 Serializable？
我注意到在 Spring-boot 中很多人创建模型/实体并实现 Serialiazable 接口(interface)。 public class ModelBase implements Seri

首页

博学

6Ren·AI

商城