gpt4 book ai didi

hadoop - hive 中具有分区的外部表

转载 作者:行者123 更新时间:2023-12-02 21:58:47 25 4
gpt4 key购买 nike

我在HDFS中的目录结构中有一堆tsv文件,该目录结构遵循分区约定,其中event_dt是分区。

some_path/event_dt=2017-04-30
some_path/event_dt=2017-05-01

等等。

问题是event_dt也是列之一。特别是第二个。但是我无法指定,因为 event_dt无法出现在表模式和 PARTITIONED BY语句中。触发:
 Column repeated in partitioning columns

除了使用不同的名称之外,还有其他方法吗?毕竟,这是相同的信息。

最佳答案

3个选项,如果您不想重命名列。

  • 如果event_dt是csv中的最后一列,则创建不包含该列的表。
  • 在提取过程中,将数据的此信息排除在外,将数据从一个位置转换到另一个位置,在该位置,目标表由even_dt分区(不是最有效的方式)
  • 在表的顶部创建一个 View (不包括列之一),否则原始表将需要重命名。
  • 关于hadoop - hive 中具有分区的外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44433893/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com