gpt4 book ai didi

sql - 使用 Scala 中的数据帧在 Spark 1.30 中保存为文本

转载 作者:行者123 更新时间:2023-12-04 13:06:57 25 4
gpt4 key购买 nike

我使用的是 Spark 1.3.0 版,并在 Scala 中使用带有 SparkSQL 的数据帧。在 1.2.0 版本中,有一个名为“saveAsText”的方法。在使用数据帧的 1.3.0 版中,只有“保存”方法。默认输出是 Parquet 。
如何使用 save 方法指定输出应为 TEXT ?

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// this is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

// Define the schema using a case class.
// Note: Case classes in Scala 2.10 can support only up to 22 fields. To work around this limit,
// you can use custom classes that implement the Product interface.
case class Person(name: String, age: Int)

// Create an RDD of Person objects and register it as a table.
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")

// SQL statements can be run by using the sql methods provided by sqlContext.
val teenagers = sqlContext.sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")

teenagers.save("/user/me/out")

最佳答案

你可以使用这个:

teenagers.rdd.saveAsTextFile("/user/me/out")

关于sql - 使用 Scala 中的数据帧在 Spark 1.30 中保存为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29302901/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com