gpt4 book ai didi

sql - 将带有时间戳列的 csv 加载到 athena 表

转载 作者:行者123 更新时间:2023-12-03 04:12:22 24 4
gpt4 key购买 nike

我已开始在我的 S3 文件之上使用 Athena 查询引擎其中一些是时间戳格式列。

我创建了一个包含 2 列的简单表格

CREATE EXTERNAL TABLE `test`(
`date_x` timestamp,
`clicks` int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION
's3://aws-athena-query-results-123-us-east-1/test'
TBLPROPERTIES (
'has_encrypted_data'='false',
'transient_lastDdlTime'='1525003090')

我尝试加载文件并使用 Athena 查询它:看起来像这样:

"2018-08-09 06:00:00.000",12
"2018-08-09 06:00:00.000",42
"2018-08-09 06:00:00.000",22

我尝试了不同类型的时间戳格式,例如 DD/MM/YYYY 和 YYY-MM-DD...,尝试为每一行设置时区 - 但它们都不起作用。

我尝试过的每个值都在 Athena 中显示,结果如下:

        date_x  clicks
1 12
2 42
3 22

我尝试过使用带标题和不带标题的 CSV 文件尝试使用带引号和不带引号,但所有这些都显示出缺陷的时间戳。我关于雅典娜的专栏必须是时间戳 - 而不是没有时区。请不要使用 STRING 列或 DATE 列,这不是我需要的。

CSV 文件应该是什么样子,以便 Athena 能够识别时间戳列?

最佳答案

尝试以下格式:yyyy-MM-dd HH:mm:ss.SSSSSS

文章https://docs.amazonaws.cn/en_us/redshift/latest/dg/r_CREATE_EXTERNAL_TABLE.html建议:

"Timestamp values in text files must be in the format yyyy-MM-dd HH:mm:ss.SSSSSS, as the following timestamp value shows: 2017-05-01 11:30:59.000000 . "

关于sql - 将带有时间戳列的 csv 加载到 athena 表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50086587/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com