gpt4 book ai didi

scala - 将 Spark 流数据写入并附加到 HDFS 中的文本文件

转载 作者:可可西里 更新时间:2023-11-01 14:30:29 27 4
gpt4 key购买 nike

我正在创建一个 spark scala 代码,我在其中从 MQTT 服务器读取连续流。我在 yarn 集群模式下运行我的工作。我想将此流保存并附加到 HDFS 中的单个文本文件中。

我将每 1 秒接收一次数据流。所以我需要将这些数据附加到 HDFS 中的单个文本文件中。

谁能帮忙。

最佳答案

使用数据框和使用模式Append这将在每次新记录出现时追加数据。

val sqlContext = new org.apache.spark.sql.SQLContext(context)
import sqlContext.implicits._

stream.map(_.value).foreachRDD(rdd => {
rdd.foreach(println)
if (!rdd.isEmpty()) {
rdd.toDF("value").coalesce(1).write.mode(SaveMode.Append).save("C:/data/spark/")
// rdd.saveAsTextFile("C:/data/spark/")
}

})

关于scala - 将 Spark 流数据写入并附加到 HDFS 中的文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42113668/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com