gpt4 book ai didi

hadoop - 推特分析 hive 查询

转载 作者:可可西里 更新时间:2023-11-01 14:56:20 24 4
gpt4 key购买 nike

我的 table 是,

CREATE EXTERNAL TABLE twitter.tweets (id BIGINT,created_at STRING,source STRING,favorited BOOLEAN, retweeted_status STRUCT<text:STRING,user:STRUCT<screen_name:STRING,name:STRING>,retweet_count:INT>,entities STRUCT<urls:ARRAY<STRUCT<expanded_url:STRING>>, user_mentions:ARRAY<STRUCT<screen_name:STRING,name:STRING>>,
hashtags:ARRAY<STRUCT<text:STRING>>>,text STRING,user STRUCT<screen_name:STRING,name:STRING,friends_count:INT,followers_count:INT,statuses_count:INT,verified:BOOLEAN,utc_offset:INT,time_zone:STRING>,in_reply_to_screen_name STRING)
PARTITIONED BY (datehour INT)
ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe'
LOCATION '/twitter';

我使用
将数据从 HDFS 加载到此表LOAD DATA INPATH '/user/hue/twitter/tweets/2017/03/08/FlumeData.1489005910193' OVERWRITE INTO TABLE tweets PARTITION(日期时间)

我得到一个错误

'Error while compiling statement: FAILED:SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:MetaException(message:Invalid partition key & values; keys [datehour, ], values [])'

我不明白要写什么作为分区部分的值

最佳答案

LOAD DATA INPATH 仅移动文件。
如果您的所有记录都来自同一时间(例如 23),则使用 -
...INTO TABLE tweets PARTITION (datehour=23)
如果没有,您将不得不使用另一种技术,例如外部表。

关于hadoop - 推特分析 hive 查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42697422/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com