gpt4 book ai didi

sql - hadoop操作只写一行?

转载 作者:可可西里 更新时间:2023-11-01 15:38:11 24 4
gpt4 key购买 nike

我正在尝试处理 tweets-clean.txt。通过处理,我的意思是获取每个用户标识的较早日期、最新日期和记录数,以及每行中的用户标识本身。我只得到一行,该行中只有最小和最大日期。我做错了什么?

CREATE TABLE temptweets16 (
date string,
userid string
) ;

LOAD DATA LOCAL INPATH 'tweets-clean.txt' INTO TABLE temptweets16;

INSERT OVERWRITE LOCAL DIRECTORY './hive-output'
SELECT
userid as userid,
MIN(FROM_UNIXTIME(UNIX_TIMESTAMP( date, 'EEE MMM dd HH:mm:ss Z yyyy' ))) as mindate,
MAX(FROM_UNIXTIME(UNIX_TIMESTAMP( date, 'EEE MMM dd HH:mm:ss Z yyyy' ))) as maxdate,
COUNT (userid) as count
FROM temptweets16
GROUP BY userid;

输入示例行:

Tue Feb 11 05:04:10 +0000 2014  1046894028

只有一行输出:

\N2014-02-11 00:02:102014-02-11 00:04:100

最佳答案

您需要在 CREATE TABLE 语句中指定数据的格式,如果它是制表符分隔的文件,您可以说:

CREATE TABLE temptweets16 (
date string,
userid string
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

关于sql - hadoop操作只写一行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22123025/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com