gpt4 book ai didi

apache-spark - 修改 spark DataFrame 列

转载 作者:行者123 更新时间:2023-12-03 11:11:16 25 4
gpt4 key购买 nike

我想更改以下数据框:

--id--rating--timestamp--
-------------------------
| 0 | 5.0 | 231312231 |
| 1 | 3.0 | 192312311 | #Epoch time (seconds from 1 Thursday, 1 January 1970)
-------------------------

到以下数据框:
--id--rating--timestamp--
--------------------------
| 0 | 5.0 | 05 |
| 1 | 3.0 | 04 | #Month of year
--------------------------

我怎么能做到这一点?

最佳答案

使用内置函数很容易

import org.apache.spark.sql.functions._;
import spark.implicits._
val newDF = dataset.withColumn("timestamp", month(from_unixtime('timestamp)));

请注意,DataFrame 是不可变的,因此您可以创建新的 DataFrame 但不能修改。当然,您可以将此 Dataset 分配给相同的变量。

注意编号 2:DataFrame = Dataset[Row],这就是我使用这两个名称的原因

关于apache-spark - 修改 spark DataFrame 列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44050938/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com