gpt4 book ai didi

datetime - 将带有纳秒的字符串转换为spark中的时间戳

转载 作者:行者123 更新时间:2023-12-03 06:37:26 58 4
gpt4 key购买 nike

有没有办法将纳秒时间戳值转换为 Spark 中的时间戳。我从 csv 文件获取输入,并且时间戳值的格式为2015 年 12 月 12 日 14:09:36.992415+01:00。这是我尝试过的代码。

val date_raw_data = List((1, "12-12-2015 14:09:36.992415+01:00"))

val dateraw_df = sc.parallelize(date_raw_data).toDF("ID", "TIMESTAMP_VALUE")

val ts = unix_timestamp($"TIMESTAMP_VALUE", "MM-dd-yyyy HH:mm:ss.ffffffz").cast("double").cast("timestamp")

val date_df = dateraw_df.withColumn("TIMESTAMP_CONV", ts).show(false)

输出为

+---+-----------------------+---------------------+
|ID |TIMESTAMP_VALUE |TIMESTAMP_CONV |
+---+-----------------------+---------------------+
|1 |12-12-2015 14:09:36.992|null |
+---+-----------------------+---------------------+

我能够使用格式 MM-dd-yyyy HH:mm:ss.SSS 转换毫秒时间戳。问题在于纳秒和时区格式。

最佳答案

unix_timestamp 在这里不起作用。即使您可以解析该字符串(AFAIK SimpleDateFormat 不提供所需的格式),unix_timestamp has only second precision (强调我的):

def unix_timestamp(s: Column, p: String): Column

Convert time string with given pattern (see [http://docs.oracle.com/javase/tutorial/i18n/format/simpleDateFormat.html]) to Unix time stamp (in seconds), return null if fail.

您必须创建自己的函数来解析此数据。一个大概的想法:

import org.apache.spark.sql.functions._
import org.apache.spark.sql.Column

def to_nano(c: Column) = {
val r = "([0-9]{2}-[0-9]{2}-[0-9]{4} [0-9]{2}:[0-9]{2}:[0-9]{2})(\\.[0-9]*)(.*)$"
// seconds part
(unix_timestamp(
concat(
regexp_extract($"TIMESTAMP_VALUE", r, 1),
regexp_extract($"TIMESTAMP_VALUE", r, 3)
), "MM-dd-YYYY HH:mm:ssXXX"
).cast("decimal(38, 9)") +
// subsecond part
regexp_extract($"TIMESTAMP_VALUE", r, 2).cast("decimal(38, 9)")).alias("value")
}

Seq("12-12-2015 14:09:36.992415+01:00").toDF("TIMESTAMP_VALUE")
.select(to_nano($"TIMESTAMP_COLUMN").cast("timestamp"))
.show(false)

// +--------------------------+
// |value |
// +--------------------------+
// |2014-12-28 14:09:36.992415|
// +--------------------------+

关于datetime - 将带有纳秒的字符串转换为spark中的时间戳,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46172432/

58 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com