gpt4 book ai didi

scala - 从Kafka上的JSON消息在Spark流中创建Spark DataFrame

转载 作者:行者123 更新时间:2023-12-04 08:06:27 28 4
gpt4 key购买 nike

我正在Scala中实现Spark Streaming的实现,其中我从Kafka主题中提取JSON字符串,并希望将它们加载到数据帧中。有没有一种方法可以使Spark从RDD [String]本身推断出架构?

最佳答案

是的,您可以使用以下方法:

sqlContext.read
//.schema(schema) //optional, makes it a bit faster, if you've processed it before you can get the schema using df.schema
.json(jsonRDD) //RDD[String]

我目前正在尝试做同样的事情。不过,我很好奇您是如何从Kafka中获得RDD [String]的,我仍然对Spark + Kafka仅进行流式传输而不是“一次性取出其中的内容”印象深刻。 :)

关于scala - 从Kafka上的JSON消息在Spark流中创建Spark DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31076224/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com