gpt4 book ai didi

hive - 如何从子目录将所有数据收集到配置单元中

转载 作者:行者123 更新时间:2023-12-04 03:38:09 29 4
gpt4 key购买 nike

我将数据组织在特定格式的目录中(如下所示),并希望将它们添加到配置单元表中。我想添加2012目录的所有数据。
下面所有的名称都是目录名称,最里面的目录(第3层)具有实际的数据文件。
有什么方法可以直接拾取数据而无需更改此目录结构。
任何指针表示赞赏。

/2012/
|
|---------2012-01
|---------2012-01-01
|---------2012-01-02
|...
|...
|---------2012-01-31
|
|---------2012-02
|---------2012-02-01
|---------2012-02-02
|...
|...
|---------2012-02-28
|
|---------2012-03
|...
|...
|---------2012-12

到目前为止,查询一直没有运气:
CREATE EXTERNAL TABLE sampledata
(datestr string, id string, locations string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
LOCATION '/path/to/data/2012/*/*';

CREATE EXTERNAL TABLE sampledata
(datestr string, id string, locations string)
partitioned by (ystr string, ymstr string, ymdstr string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';

ALTER TABLE sampledata
ADD
PARTITION (ystr ='2012')
LOCATION '/path/to/data/2012/';

解决方案:
这个小参数解决了我的问题。在这个问题可能对其他人有益的地方添加一个问题:
SET mapred.input.dir.recursive=true;

最佳答案

用适合我的情况的解决方案回答我自己的问题。 SET mapred.input.dir.recursive = true;

关于hive - 如何从子目录将所有数据收集到配置单元中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20756561/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com