scala - 在 spark DataFrame- Scala 中格式化 TimestampType-6ren

scala - 在 spark DataFrame- Scala 中格式化 TimestampType

转载作者：行者123 更新时间：2023-12-04 03:11:28

24

4

当我尝试将字符串字段转换为 Spark DataFrame 中的 TimestampType 时，输出值具有微秒精度(yyyy-MM-dd HH:mm:ss.S)。但我需要格式为 yyyy-MM-dd HH:mm:ss 即，不包括微秒精度。另外，我想在写入 Parquet 文件时将其保存为时间戳字段。所以我字段的数据类型应该是格式为 yyyy-MM-dd HH:mm:ss

的时间戳

我尝试使用 TimestampType 作为

col("column_A").cast(TimestampType)
or
col("column_A").cast("timestamp")

将字段转换为时间戳。这些能够将字段转换为时间戳，但精度为微秒。

任何人都可以帮助将时间戳数据类型保存到具有所需格式规范的 Parquet 文件中。
编辑
输入:

val a = sc.parallelize(List(("a", "2017-01-01 12:02:00.0"), ("b", "2017-02-01 11:22:30"))).toDF("cola", "colb")
scala> a.withColumn("datetime", date_format(col("colb"), "yyyy-MM-dd HH:mm:ss")).show(false)
+----+---------------------+-------------------+
|cola|colb                 |datetime           |
+----+---------------------+-------------------+
|a   |2017-01-01 12:02:00.0|2017-01-01 12:02:00|
|b   |2017-02-01 11:22:30  |2017-02-01 11:22:30|
+----+---------------------+-------------------+


scala> a.withColumn("datetime", date_format(col("colb"), "yyyy-MM-dd HH:mm:ss")).printSchema
root
 |-- cola: string (nullable = true)
 |-- colb: string (nullable = true)
 |-- datetime: string (nullable = true)

在上面，我们得到了正确的时间戳格式，但是当我们打印 Schema 时，datetime 字段是 String 类型，但我这里需要一个时间戳类型。

现在，如果我尝试将字段转换为时间戳，格式将设置为微秒精度，这不是预期的。

scala> import org.apache.spark.sql.types._
import org.apache.spark.sql.types._

scala> val a = sc.parallelize(List(("a", "2017-01-01 12:02:00.0"), ("b", "2017-02-01 11:22:30"))).toDF("cola", "colb")
a: org.apache.spark.sql.DataFrame = [cola: string, colb: string]

scala> a.withColumn("datetime", date_format(col("colb").cast(TimestampType), "yyyy-MM-dd HH:mm:ss").cast(TimestampType)).show(false)
+----+---------------------+---------------------+
|cola|colb                 |datetime             |
+----+---------------------+---------------------+
|a   |2017-01-01 12:02:00.0|2017-01-01 12:02:00.0|
|b   |2017-02-01 11:22:30  |2017-02-01 11:22:30.0|
+----+---------------------+---------------------+


scala> a.withColumn("datetime", date_format(col("colb").cast(TimestampType), "yyyy-MM-dd HH:mm:ss").cast(TimestampType)).printSchema
root
 |-- cola: string (nullable = true)
 |-- colb: string (nullable = true)
 |-- datetime: timestamp (nullable = true)

我期望格式为 yyyy-MM-dd HH:mm:ss 并且该字段的数据类型为 timestamp提前致谢

最佳答案

我认为您缺少的是时间戳/日期时间字段在 native 存储中没有可读格式。格式为 float 或 INT96 或其他格式，具体取决于数据库。为可读性格式化日期时间/时间戳一直是一个报告问题(即，由准备显示数据的工具执行)，这就是为什么您注意到当您为日期提供字符串格式时它正确转换它以存储作为一个字符串。数据库 (spark) 只准确地存储它需要准确知道时间值是多少的内容。

您可以指定时间戳值没有毫秒，即毫秒值 0，但不能指定它不应显示毫秒。

这类似于在数字列上指定舍入行为(也是一个报告问题)。

关于scala - 在 spark DataFrame- Scala 中格式化 TimestampType，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44956300/

24

4

0

文章推荐： sql - MEMSql 用户定义变量

文章推荐： c# - splitcontainer控件的splitter区域处理事件

Java - toString 格式化(格式化 double )
我正在从事的项目需要使用 toString 方法打印银行帐户余额。我不允许向当前程序添加任何方法，但我需要将 myBalance 变量格式化为 double 型，该变量保留两位小数而不是一位。在这个特
c# - C++ 格式化，如 Visual Studio C# 格式化
我喜欢 Visual Studio (2008) 格式化 C# 代码的方式；不幸的是，在编写 C++ 代码时，它的行为方式似乎有所不同。比如我这样写代码的时候: class Test { publi
Java 格式化
Scanner scan = new Scanner(System.in); System.out.println("Enter three positive integers seperated b
c# - 格式化
在 aspose(使用 C#)中用于格式化数字的正确样式属性是什么。我想做两件事: 1) 将五位数字格式化为邮政编码。(我不太确定使用哪个 Style 属性来获取自定义 excel 邮政编码格式) 2
Java int 格式化？
我希望用户输入从 00 到 23 和从 00 到 59 的 Local.Time 的小时和分钟，我将其扫描为一个 int。它有效，但对于从 00 到 09 的值，int 忽略 0，然后将其放置为 0,
vba - 格式化(动态)
大家好，请查看上面的图片，我有两张 table 。在下面代码的第一个表中，我得到了这种格式。但我想像 Table2 那样格式化，每个合并单元格中的行数是动态的，而且不一样。有没有办法像table
Laravel created_at 格式化
我在一个 laravel 网站工作，我只是想知道是否有办法为用户格式化 created_at 值，因为现在它类似于以下内容: 2017-09-20 13:41 但我更愿意将其格式化为易于阅读的格式，例
java - 格式化 HTMLEditorKit
我正在尝试在 JTextPane 中进行一些基本的格式化。为此，我决定使用 html(HTMLDocument 和 HTMLEditorKit)。这里是按钮的操作监听器代码，应使所选文本变为粗体 b
ESlint 格式化 - 排队声明？
是否有规则或插件会导致 es-lint 错误或警告，如果范围内的声明没有像下面那样间隔，赋值运算符的对齐方式相同？ var a = 'a'; var bb = 'b'; var ccc = 'd
java - 格式化 LinkedHashMap
我正在尝试重新格式化 LinkedHashMap 的输出以排除逗号和大括号。这是我的看跌期权: token.put("[Server.Protocol]", url.getProtocol() +
python - 马尔可夫分析、格式化
我有一个程序，可以从文本文件中读取大量文本，然后根据文本内容随机化内容以显示为短篇故事。该程序可以运行，但最后一部分(我显示的 Material )非常笨重且效率不高，我想知道是否有人对如何更有效地获
VIM 格式化/对齐
我正在尝试将 VIM 作为我的 ruby/rails 编辑器。太胖了，我对它的功能印象深刻并且我能够安装以下插件以提供更好的 IDE 体验自动配对 Better-snipmate-snippe
java - JTextPane 格式化
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
Jquery 格式化 - 在另一个函数完成后运行函数
我有两个 jQuery 函数。我想先运行下面的第一个，然后在该函数完成后运行另一个。通常我会在代码的第一部分添加一个函数，但不确定如何使用这个 block 来做到这一点，或者它是否是正确的方法。简而
Python 在打印时对列表进行换行/格式化
在 Python 2.7 中，我有一个包含数字 1-25 字符串的列表(例如)。打印它们时，我希望列表打印 5 行，每行 5 个数字。理想情况下: >>> print(myList) ['1', '
C printf 格式化
我有以下功能来打印借阅者已取出的书籍列表。 void searchBorrowerLoans(int a) { int i; for (i = 1
java - 格式化 JTextPane
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 5 年前。 Improv
Android TextView 格式化
我正在尝试实现一个用作 ListView header 的 TextView。我想对其进行格式化，以便我基本上有一个以第一行为中心的标题，然后是以下几行的附加信息。如何格式化文本/字符串以创建这种格式
PostgreSQL，格式化 float
我尝试格式化数字字段 select to_char(12315.83453, 'FM999999999999D9999') 在这种情况下一切正常。结果是 12315.8345 但是如果值在0到1之间
Java BigDecimal 格式化
我有一个带有 BigDecimal 字段的类。我把这个对象放到 JSP(Spring MVC)中。而且我需要显示十进制不带零的 BigDecimal 字段(20.00 就像 20)，这就是为什么我的

首页

博学

6Ren·AI

商城

scala - 在 spark DataFrame- Scala 中格式化 TimestampType