apache-spark - 将 CSV 读入具有时间戳和日期类型的 Spark Dataframe-6ren

apache-spark - 将 CSV 读入具有时间戳和日期类型的 Spark Dataframe

转载作者：行者123 更新时间：2023-12-01 22:19:56

28

4

这是带有 Spark 1.6 的 CDH。

我正在尝试将此假设的 CSV 导入到 apache Spark DataFrame 中:

$ hadoop fs -cat test.csv
a,b,c,2016-09-09,a,2016-11-11 09:09:09.0,a
a,b,c,2016-09-10,a,2016-11-11 09:09:10.0,a

我使用databricks-csv jar。

val textData = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "false")
    .option("delimiter", ",")
    .option("dateFormat", "yyyy-MM-dd HH:mm:ss")
    .option("inferSchema", "true")
    .option("nullValue", "null")
    .load("test.csv")

我使用 inferSchema 为生成的 DataFrame 制作架构。 printSchema() 函数为我提供了上述代码的以下输出:

scala> textData.printSchema()
root
 |-- C0: string (nullable = true)
 |-- C1: string (nullable = true)
 |-- C2: string (nullable = true)
 |-- C3: string (nullable = true)
 |-- C4: string (nullable = true)
 |-- C5: timestamp (nullable = true)
 |-- C6: string (nullable = true)

scala> textData.show()
+---+---+---+----------+---+--------------------+---+
| C0| C1| C2|        C3| C4|                  C5| C6|
+---+---+---+----------+---+--------------------+---+
|  a|  b|  c|2016-09-09|  a|2016-11-11 09:09:...|  a|
|  a|  b|  c|2016-09-10|  a|2016-11-11 09:09:...|  a|
+---+---+---+----------+---+--------------------+---+

C3 列具有String 类型。我希望 C3 具有日期类型。为了得到它的日期类型，我尝试了以下代码。

val textData = sqlContext.read.format("com.databricks.spark.csv")
    .option("header", "false")
    .option("delimiter", ",")
    .option("dateFormat", "yyyy-MM-dd")
    .option("inferSchema", "true")
    .option("nullValue", "null")
    .load("test.csv")

scala> textData.printSchema
root
 |-- C0: string (nullable = true)
 |-- C1: string (nullable = true)
 |-- C2: string (nullable = true)
 |-- C3: timestamp (nullable = true)
 |-- C4: string (nullable = true)
 |-- C5: timestamp (nullable = true)
 |-- C6: string (nullable = true)

scala> textData.show()
+---+---+---+--------------------+---+--------------------+---+
| C0| C1| C2|                  C3| C4|                  C5| C6|
+---+---+---+--------------------+---+--------------------+---+
|  a|  b|  c|2016-09-09 00:00:...|  a|2016-11-11 00:00:...|  a|
|  a|  b|  c|2016-09-10 00:00:...|  a|2016-11-11 00:00:...|  a|
+---+---+---+--------------------+---+--------------------+---+

此代码与第一个 block 之间的唯一区别是 dateFormat 选项行(我使用 "yyyy-MM-dd" 而不是 "yyyy- MM-dd HH:mm:ss")。现在我将 C3 和 C5 都作为时间戳(C3 仍然不是日期)。但对于 C5，HH::mm:ss 部分将被忽略并在数据中显示为零。

理想情况下，我希望 C3 为日期类型，C5 为时间戳类型，并且不忽略其 HH:mm:ss 部分。我现在的解决方案看起来像这样。我通过从数据库并行提取数据来制作 csv。我确保将所有日期提取为时间戳(不理想)。因此，测试 csv 现在看起来像这样:

$ hadoop fs -cat new-test.csv
a,b,c,2016-09-09 00:00:00,a,2016-11-11 09:09:09.0,a
a,b,c,2016-09-10 00:00:00,a,2016-11-11 09:09:10.0,a

这是我最终的工作代码:

val textData = sqlContext.read.format("com.databricks.spark.csv")
    .option("header", "false")
    .option("delimiter", ",")
    .option("dateFormat", "yyyy-MM-dd HH:mm:ss")
    .schema(finalSchema)
    .option("nullValue", "null")
    .load("new-test.csv")

在这里，我在 dateFormat 中使用完整的时间戳格式(“yyyy-MM-dd HH:mm:ss”)。我手动创建 FinalSchema 实例，其中 c3 是日期，C5 是时间戳类型(Spark sql 类型)。我使用 schema() 函数应用这些模式。输出如下所示:

scala> finalSchema
res4: org.apache.spark.sql.types.StructType = StructType(StructField(C0,StringType,true), StructField(C1,StringType,true), StructField(C2,StringType,true), StructField(C3,DateType,true), StructField(C4,StringType,true), StructField(C5,TimestampType,true), StructField(C6,StringType,true))

scala> textData.printSchema()
root
 |-- C0: string (nullable = true)
 |-- C1: string (nullable = true)
 |-- C2: string (nullable = true)
 |-- C3: date (nullable = true)
 |-- C4: string (nullable = true)
 |-- C5: timestamp (nullable = true)
 |-- C6: string (nullable = true)


scala> textData.show()
+---+---+---+----------+---+--------------------+---+
| C0| C1| C2|        C3| C4|                  C5| C6|
+---+---+---+----------+---+--------------------+---+
|  a|  b|  c|2016-09-09|  a|2016-11-11 09:09:...|  a|
|  a|  b|  c|2016-09-10|  a|2016-11-11 09:09:...|  a|
+---+---+---+----------+---+--------------------+---+

是否有更简单或开箱即用的方法来解析 csv 文件(将日期和时间戳类型放入 Spark 数据帧中？

最佳答案

对于非平凡情况使用推断选项，它可能不会返回预期结果。正如您在 InferSchema.scala 中看到的那样:

if (field == null || field.isEmpty || field == nullValue) {
  typeSoFar
} else {
  typeSoFar match {
    case NullType => tryParseInteger(field)
    case IntegerType => tryParseInteger(field)
    case LongType => tryParseLong(field)
    case DoubleType => tryParseDouble(field)
    case TimestampType => tryParseTimestamp(field)
    case BooleanType => tryParseBoolean(field)
    case StringType => StringType
    case other: DataType =>
      throw new UnsupportedOperationException(s"Unexpected data type $other")

它只会尝试将每列与时间戳类型匹配，而不是日期类型，因此这种情况的“开箱即用的解决方案”是不可能的。但根据我的经验，“更简单”的解决方案是直接使用 needed type 定义架构。，它将避免将推断选项设置为仅匹配评估的 RDD 而不是整个数据的类型。您的最终架构是一个有效的解决方案。

关于apache-spark - 将 CSV 读入具有时间戳和日期类型的 Spark Dataframe，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40878243/

28

4

0

文章推荐： java - 'az account list' 的 API 等效项是什么？

文章推荐： github - 在github中显示提交树？

读入 CSV 文件并添加带有文件名的列
假设您有 2 个文件，如下所示。 file_1_october.csv file_2_november.csv 文件具有相同的列。所以我想在 R 中读取这两个文件，我可以使用 map 轻松完成。我还想
r - 读入 R 时如何在数值中保留零
我有一个制表符分隔的文本文件: 0730000 John 1 01 225 000 000 当我将它读入 R 时 stud_stats data.table::f
r - 读入 R 最快的文件格式是什么？
似乎最直观的是 .rdata 文件可能是 R 加载的快速文件格式，但是在扫描一些堆栈帖子时，似乎更多的注意力集中在提高 .csv 或其他格式的加载时间上。有确定的答案吗？最佳答案不是一个明确的答案
R:读入 .csv 文件并转换为多列数据框
我是 R 的新手，目前在读取 .csv 文件并将其转换为 data.frame 时遇到了很多麻烦7 列。这是我正在做的: gene_symbols_table head(gene_symbols_t
LINQPAD - 读入 csv 并将列存储到列表中
基本上我有一个格式如下所示的 csv: csv 有 11 列，前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中，它们具有值，并对另一个列表中的
arrays - 读入 Julia 中的数组
我对 Julia 比较陌生，正在寻找一种有效的方法来从文本文件中读取并将每个“列”存储在数组中(我有 2 列，但通用解决方案也很棒)。例如，我想要输入 1 2 3 4 5 6
LINQPAD - 读入 csv 并将列存储到列表中
基本上我有一个格式如下所示的 csv: csv 有 11 列，前五列和后五列完全相同。我希望能够读取 csv 并将第一列和第五列(期间和支出)的所有实例存储在一个列表中，它们具有值，并对另一个列表中的
c: 读入 int 不完整
我的程序分配了一个 32 位 int，随后尝试使用 read(2) 从套接字将 4 个字节读入 int 有时读取不完整并返回读取 2 个字节。有什么方法可以从中恢复吗？我想我必须在 int 的中途生成
根据标题开始的位置将 CSV 读入 R
我有大量的 CSV 文件。有些标题从第一行开始，其他标题从第 3 行开始，其他的从第 7 行开始，依此类推。标题看起来都一样，它们只是从不同文件的不同行开始。有没有办法有条件地 read.csv 文
c# - 读入 CSV 文件
我写了一个小程序来从 csv 文件中读取数据: using System; using System.Collections.Generic; using System.Linq; using Sys
c++ - 读入 vector 时排序
我需要读入一个包含 10,000 个整数的列表，并将它们按升序放置在一个 vector 中。请注意，我不是在然后阅读排序，而是在同时阅读时排序。我这样做是为了学习。我意识到阅读时排序是 O(n^2)
bash - 读入 bash 脚本并将参数传递给脚本
我有一个问题。不幸的是，我没有找到任何答案。如何将参数传递给脚本，这是另一个命令的结果。例如: ls | ./myscript.sh 我想将 ls 的结果传递给 myscript。如果我执行上面的命
c++ - 读入 ascii 扩展字符
我在读取扩展 ASCII 字符并将其转换为十进制值时遇到问题。我试过这样做: unsigned char temp; while(temp = cin.get != EOF) { cout << (i
python - 读入 python 后从文本文件中删除第一行标题
我已经通过以下命令加载了文本文件。我想从 contents 中删除由 \n 分隔的第一行标题行。怎么做？ txtfile = open(filepath, "rt") contents = txtfi
python - 读入 np 数组不起作用
希望一切顺利...我正在将数据集输入到 sklearn 算法中进行分类，但找不到任何简单的数据集来开始，所以我自己制作了数据集。但有一个问题... import numpy as np import
c++ - 如何使用C++读入.csv文件并以另一种形式输出？
我有一个 .csv 文件，它有 3 行和 5 列，值为 0、1、2、3、50 或 100。我将它从 Excel 工作表保存到 .csv 文件。我正在尝试使用 C++ 读取 .csv 文件，并根据最后三
c# - 读入 HTML 文件并替换为变量
我有一个 HTML 文件，它将作为我要发送的电子邮件的模板。 html 中有一些字段是可变的。我想知道是否有一种可靠的方法可以用变量替换 HTML 文件中的占位符。我知道我可以 string.Repl
c# - 读入 JSON 数组并转换为 IEnumerable
我从未使用过 JSON 文件，但我有实现 JSON 文件的任务，我需要将其转换为 IEnumerable。当我尝试对 JSON 对象进行反序列化时，我得到一个异常，上面写着: An unhandled
C# 将 IFormFile 读入 byte[]
我正在尝试阅读 IFormFile从这样的 HTTP POST 请求中收到: public async Task UploadDocument([FromForm]DataWrapper data)
将多行文本 block 读入 R 中的单个向量
我有一个包含大量多行文本 block 的文件。我想将该文件读入一个字符向量列表——每个 block 一个。我对 scan()、read.table() 等函数的文档的阅读似乎表明一行的结尾将结束向量。

首页

博学

6Ren·AI

商城

apache-spark - 将 CSV 读入具有时间戳和日期类型的 Spark Dataframe