scala - Spark 结构化流与 Hbase 集成-6ren

scala - Spark 结构化流与 Hbase 集成

转载作者：行者123 更新时间：2023-12-03 16:31:57

27

4

我们正在对从 MySQL 收集的 kafka 数据进行流式处理。现在，一旦完成所有分析，我想将我的数据直接保存到 Hbase。我已经通过了 spark 结构化的流文档，但找不到任何带有 Hbase 的接收器。我用来从 Kafka 读取数据的代码如下。

 val records = spark.readStream.format("kafka").option("subscribe", "kaapociot").option("kafka.bootstrap.servers", "XX.XX.XX.XX:6667").option("startingOffsets", "earliest").load
 val jsonschema = StructType(Seq(StructField("header", StringType, true),StructField("event", StringType, true)))
 val uschema = StructType(Seq(
             StructField("MeterNumber", StringType, true),
             StructField("Utility", StringType, true),
             StructField("VendorServiceNumber", StringType, true),
             StructField("VendorName", StringType, true),
             StructField("SiteNumber",  StringType, true),
             StructField("SiteName", StringType, true),
             StructField("Location", StringType, true),
             StructField("timestamp", LongType, true),
             StructField("power", DoubleType, true)
             ))
 val DF_Hbase = records.selectExpr("cast (value as string) as Json").select(from_json($"json",schema=jsonschema).as("data")).select("data.event").select(from_json($"event", uschema).as("mykafkadata")).select("mykafkadata.*")

现在终于，我想在 hbase 中保存 DF_Hbase 数据帧。

最佳答案

1-将这些库添加到您的项目中:

      "org.apache.hbase" % "hbase-client" % "2.0.1"
      "org.apache.hbase" % "hbase-common" % "2.0.1"

2-将此特征添加到您的代码中:

   import java.util.concurrent.ExecutorService
   import org.apache.hadoop.hbase.client.{Connection, ConnectionFactory, Put, Table}
   import org.apache.hadoop.hbase.security.User
   import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
   import org.apache.spark.sql.ForeachWriter

   trait HBaseForeachWriter[RECORD] extends ForeachWriter[RECORD] {

     val tableName: String
     val hbaseConfResources: Seq[String]

     def pool: Option[ExecutorService] = None

     def user: Option[User] = None

     private var hTable: Table = _
     private var connection: Connection = _


     override def open(partitionId: Long, version: Long): Boolean = {
       connection = createConnection()
       hTable = getHTable(connection)
       true
     }

     def createConnection(): Connection = {
       val hbaseConfig = HBaseConfiguration.create()
       hbaseConfResources.foreach(hbaseConfig.addResource)
       ConnectionFactory.createConnection(hbaseConfig, pool.orNull,                      user.orNull)

     }

     def getHTable(connection: Connection): Table = {
       connection.getTable(TableName.valueOf(tableName))
     }

     override def process(record: RECORD): Unit = {
       val put = toPut(record)
       hTable.put(put)
     }

     override def close(errorOrNull: Throwable): Unit = {
       hTable.close()
       connection.close()
     }

     def toPut(record: RECORD): Put

   }

3-将它用于您的逻辑:

    val ds = .... //anyDataset[WhatEverYourDataType]

    val query = ds.writeStream
           .foreach(new HBaseForeachWriter[WhatEverYourDataType] {
                            override val tableName: String = "hbase-table-name"
                            //your cluster files, i assume here it is in resources  
                            override val hbaseConfResources: Seq[String] = Seq("core-site.xml", "hbase-site.xml") 

                            override def toPut(record: WhatEverYourDataType): Put = {
                              val key = .....
                              val columnFamaliyName : String = ....
                              val columnName : String = ....
                              val columnValue = ....

                              val p = new Put(Bytes.toBytes(key))
                              //Add columns ... 
                   p.addColumn(Bytes.toBytes(columnFamaliyName),
                               Bytes.toBytes(columnName), 
                               Bytes.toBytes(columnValue))

                              p
                            }

                          }
           ).start()

         query.awaitTermination()

关于scala - Spark 结构化流与 Hbase 集成，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47152015/

27

4

0

文章推荐： c - 如何将结构复合文字作为参数传递给函数？

文章推荐： cocoa - AVCaptureDevice 返回 nil

文章推荐： Kotlin 关于 @ 符号和返回后缀的澄清

文章推荐： cocoa-touch - 有时保留循环可以吗？

c# - Windows 集成 (NTLM) 身份验证与 Windows 集成 (Kerberos)
Windows 集成 (NTLM) 身份验证和 Windows 集成 (Kerberos) 之间有什么区别？如何在IIS6中实现这些 w.r.t. MSDN 最佳答案 Kerberos 和 NTLM
node.js - 无法将 Keycloak 与 Sails 集成。能够将 Keycloak 与 Express 集成
Keycloak是一个用 Java 编写的开源身份验证和身份管理解决方案。它提供了一个nodejs适配器，使用它我能够成功地与express集成。这是有效的路由文件: 'use strict'
Bamboo 集成
这是我关于 Bamboo 的第二个问题 ( My First One )。阅读建议信息后我的理解是，我需要一个构建工具，例如 nAnt 或 MSbuild 来编写一个获取源代码并构建它的脚本(我正在开
JIRA 集成
可用于将第三方应用程序与 jira 4.3 集成的身份验证方案有哪些？显然，从客户那里获取用户名和密码听起来很荒谬。另外，我知道 oauth 身份验证仅适用于版本 5。请告诉我。谢谢。附注。我不是在
JMS/DDS 集成
我有一个使用 DDS 的旧版 C++ 应用程序用于异步通信/消息传递。我需要将此应用程序集成到使用 JMS 进行消息传递的 JavaEE 环境中。除了构建独立的 JMS/DDS 桥接模块之外，我还有其
Clickatell - Whatsapp 集成
我正在尝试使用 Whatsapp 发送测试消息，但收到此错误消息: "error":{"code":27,"description":"Recipient not available on chann
django - 集成 Photologue
我想将 photologue 与我的 Django 应用程序集成，并使用它在车辆库存中显示照片......有点像 Boost Motor Group Inc. 提供的内容。我已经集成了该应用程序，所以
scanning - ScanSnap 集成
我目前正在尝试弄清楚如何与 fujitsu scansnap 扫描仪集成，但没有从 fujitsu 找到有关 fujitsu scansnap 管理器如何调用您的应用程序并将文件发送到您的应用程序的详
Spring 集成 - 多入站适配器不起作用
在我的项目中，我使用了 9 个(九个)int-ip:udp-inbound-channel-adapter 和一个 jms:inbound-channel-adapter。 Jms 适配器从服务器接收
JSF/Applet 集成
在我们当前的原型(prototype)中，大多数标准 HTML 控件都被小程序取代，最重要的是表单提交由小程序触发。有没有一种方法可以像一样在服务器端调用关联的操作 ? 本文Applet and
Twilio whatsapp 集成
是否可以使用 twilio 号码从 whatsapp 发送/接收短信？有人用whatsapp试过twilio吗？我问过客服，如果可能的话，他说，不确定，但很多人都问过这个问题。最佳答案万一其他人来
svn - SVN是否与Notepad++集成？
我们办公室中几乎不存在版本控制，这显然导致了很多麻烦。我们想使用SVN和Notepad++进行设置...任何人都对如何实现此目标有任何想法？我已经开始研究并浏览了这个网站: http://www.sw
Spring-Drools 集成？
曾经有提供这种集成的 spring-modules 项目；但是，该项目现已弃用。现在有没有人继续支持这种集成？谢谢。最佳答案工作正在进行中。 http://blog.athico.com/sear
DBpedia/Yago 集成
我的理解是，根据 http://wiki.dbpedia.org/Datasets，DBpedia 从 YAGO 获取类层次结构，而不是实体。 .但是，类似 http://dbpedia.org/cl
Opencms Spring 集成
任何人都可以帮助我如何将 OpenCMS 与 Java Spring Web 应用程序集成。已经用谷歌搜索并浏览了很多网站但没有用。所以，请帮助我。最佳答案我认为将 SpringMVC 与 Ope
integration - MPGS 集成
我正在尝试使用新的 migs getaway (MPGS) 我遵循了下一个 url 中的代码 https://ap-gateway.mastercard.com/api/documentation/i
TeamCity gitlab 集成
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi
Vim Cmake 集成
我有一个 cmake 项目。我想轻松完成以下操作搜索光标下任何变量、函数等的声明、定义和引用，这些可能在外部头文件中声明，其路径是在CMakeLists.txt中使用INCLUDE_DIRECTOR
iPhone FTP 集成
有人能给我指点一下 Objective-C(或 c/c++)库的方向，或者教通过 FTP 上传或下载的教程(Objective-C)吗？最好能展示如何将文件下载到临时目录，然后稍后上传？我不介意针对
r - 集成()给出了完全错误的数字
集成()给出了非常错误的答案: integrate(function (x) dnorm(x, -5, 0.07), -Inf, Inf, subdivisions = 10000L) # 2.127

首页

博学

6Ren·AI

商城

scala - Spark 结构化流与 Hbase 集成