gpt4 book ai didi

apache-spark - 在 2.0 中将 RDD 转换为 Dataframe

转载 作者:行者123 更新时间:2023-12-02 03:09:44 24 4
gpt4 key购买 nike

我正在尝试将 rdd 转换为 Spark2.0 中的数据帧

val conf=new SparkConf().setAppName("dataframes").setMaster("local")
val sc=new SparkContext(conf)
val sqlCon=new SQLContext(sc)
import sqlCon.implicits._
val rdd=sc.textFile("/home/cloudera/alpha.dat").persist()
val row=rdd.first()
val data=rdd.filter { x => !x.contains(row) }

data.foreach { x => println(x) }


case class person(name:String,age:Int,city:String)
val rdd2=data.map { x => x.split(",") }
val rdd3=rdd2.map { x => person(x(0),x(1).toInt,x(2)) }
val df=rdd3.toDF()


df.printSchema();
df.registerTempTable("alpha")
val df1=sqlCon.sql("select * from alpha")
df1.foreach { x => println(x) }

但我在 toDF() 处遇到了以下错误。 ---> "val df=rdd3.toDF() "

Multiple markers at this line:
- Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case
classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
- Implicit conversion found: rdd3 ⇒ rddToDatasetHolder(rdd3): (implicit evidence$4:
org.apache.spark.sql.Encoder[person])org.apache.spark.sql.DatasetHolder[person]

如何使用 toDF() 将上述内容转换为 Dataframe

最佳答案

Cloudera 和 Spark 2.0?嗯,没想到我们还支持它:)

无论如何,首先您不需要在您的 RDD 上调用 .persist() 以便您可以删除该位。其次,由于 Person 是一个案例类,您应该将其名称大写。

最后,在 Spark 2.0 中,您不再调用 import sqlContext.implicits._ 来隐式构建 DataFrame 模式,您现在调用 import spark.implicits。 _。您的错误消息暗示了这一点。

关于apache-spark - 在 2.0 中将 RDD 转换为 Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40640620/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com