gpt4 book ai didi

hadoop - Hive 从多个目录加载数据并动态创建分区

转载 作者:可可西里 更新时间:2023-11-01 14:53:45 28 4
gpt4 key购买 nike

我根据创建日期将数据存储在 Hadoop 中,所以我有多个目录在基于 /data/{year}/{month}/{day} 格式创建的 HDFS 上。
我希望将这些数据加载到 Hive 中(定期)并创建相应的分区。目前,我正在尝试以下几种方法

CREATE EXTERNAL TABLE tablename (...)
PARTITIONED BY (year STRING, month STRING, day STRING)
LOCATION '/data';

ALTER TABLE tablename ADD PARTITION(year='2014', month='10', day='13') LOCATION '/data/2014/10/13';

但使用这种方法时,我需要使用 ALTER 命令手动创建每个分区。有什么方法可以自动化和参数化此过程(并将其放入工作流中)以将数据动态加载到每个子目录的 Hive 分区中?

最佳答案

msck 修复表 怎么样?这应该会自动加载子目录中的所有分区。看这里:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RecoverPartitions(MSCKREPAIRTABLE)

关于hadoop - Hive 从多个目录加载数据并动态创建分区,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26338525/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com