gpt4 book ai didi

scala - Spark 数据集和 java.sql.Date

转载 作者:行者123 更新时间:2023-12-04 12:29:21 27 4
gpt4 key购买 nike

假设我有一个 Spark Dataset像这样:

scala> import java.sql.Date
scala> case class Event(id: Int, date: Date, name: String)
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS

我要新建一个 Dataset只有名称和日期字段。据我所知,我可以使用 ds.select()TypedColumn或者我可以使用 ds.select()Column然后转换 DataFrameDataset .

但是,我无法让前一个选项与 Date 一起使用。类型。例如:
scala> ds.select($"name".as[String], $"date".as[Date])
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.
ds.select($"name".as[String], $"date".as[Date])
^

后一个选项有效:
scala> ds.select($"name", $"date").as[(String, Date)]
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]

有没有办法选择 Date来自 Dataset 的字段不去 DataFrame然后回来?

最佳答案

一整天都在为这些问题埋头苦干。我认为你可以用一行来解决你的问题:

implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]

至少这对我有用。

编辑

在这些情况下,问题在于大多数 Dataset操作,Spark 2 需要 Encoder存储模式信息(大概是为了优化)。模式信息采用隐式参数的形式(并且一堆 Dataset 操作具有这种隐式参数)。

在这种情况下,OP 为 java.sql.Date 找到了正确的架构所以以下工作:
implicit val e = org.apache.spark.sql.Encoders.DATE

关于scala - Spark 数据集和 java.sql.Date,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38798018/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com