gpt4 book ai didi

apache-spark - 如何将来自kafka的directstream转换为spark 1.3.0中的数据帧

转载 作者:行者123 更新时间:2023-12-02 03:22:58 25 4
gpt4 key购买 nike

创建如下所示的直接流后:

val events = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
ssc, kafkaParams, topicsSet)

我想将上述流转换为数据帧,以便我可以对其运行配置单元查询。谁能解释一下这是如何实现的?我正在使用 spark 版本 1.3.0

最佳答案

Spark Streaming programming guide 中所述,试试这个:

import org.apache.spark.sql.SQLContext
object SQLContextSingleton {
@transient private var instance: SQLContext = null

// Instantiate SQLContext on demand
def getInstance(sparkContext: SparkContext): SQLContext = synchronized {
if (instance == null) {
instance = new SQLContext(sparkContext)
}
instance
}
}
case class Row(key: String, value: String)
eventss.foreachRDD { rdd =>
val sqlContext = SQLContextSingleton.getInstance(rdd.sparkContext)
import sqlContext.implicits._
val dataFrame = rdd.map {case (key, value) => Row(key, value)}.toDF()
dataFrame.show()
}

关于apache-spark - 如何将来自kafka的directstream转换为spark 1.3.0中的数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32002714/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com