gpt4 book ai didi

json - Hive SerDe 使用 JSON 推文返回错误 Flume

转载 作者:可可西里 更新时间:2023-11-01 15:49:21 25 4
gpt4 key购买 nike

我正在使用 Flume 收集推特流数据并将其以 JSON 格式存储在 HDFS 中。我正在尝试使用 Hive SerDe 将此推特数据放入 Hive 表中,但我遇到了一个非常令人沮丧的错误。

hive> ADD JAR file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar;
Added [file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar] to class path
Added resources: [file:////home/ubuntu/hive/lib/hive-serdes-1.0-SNAPSHOT.jar]
hive> CREATE EXTERNAL TABLE tweet (
> id BIGINT,
> created_at STRING,
> source STRING,
> favorited BOOLEAN,
> text STRING,
> in_reply_to_screen_name STRING
> )
>
> ROW FORMAT SERDE 'com.cloudera.hive.serde.JSONSerDe'
> LOCATION '/user/ubuntu/twitter/';
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org/apache/hadoop/hive/serde2/SerDe

如有任何帮助,我们将不胜感激。

最佳答案

我遇到了同样的问题,但是,我找到了解决问题的方法:

  1. 创建表 tweets(tweet string);
  2. 将路径“home/hduser/test.json”中的数据加载到表推文中;

现在唯一的区别是您需要使用 get_json_object() 来使用数据。

如下所示:

select get_json_object(tweet,'$.text') as tweet_text, get_json_object(tweet,'$.created_at') as created_at  from tweets;

Reference

关于json - Hive SerDe 使用 JSON 推文返回错误 Flume,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52122549/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com