gpt4 book ai didi

pyspark - Athena 仅更新特定分区 : MSCK REPAIR TABLE

转载 作者:行者123 更新时间:2023-12-04 01:55:16 26 4
gpt4 key购买 nike

我有一个外部表,其中包含按日期分区的数据。对于当天的新文件集,数据每天都会更新。这就是我在气流中执行工作的方式。

  • 获取文件。这会在 S3 上获取类似 dt=2018-06-20 的文件。
  • 通过 dt 创建指向 S3 位置分区的外部表。
  • 运行 MSCK REPAIR TABLE 命令更新分区。

  • 有没有办法调用上面的命令来只对当天添加的新文件进行操作,所以基本上如果我得到一个 dt=2018-06-21 的文件,我只能更新那个分区。

    谢谢!

    最佳答案

    您可以手动添加分区 - 这是来自 Athena manual 的示例:

        ALTER TABLE orders ADD
    PARTITION (dt = '2016-05-14', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_14_May_2016'
    PARTITION (dt = '2016-05-15', country = 'IN') LOCATION 's3://mystorage/path/to/INDIA_15_May_2016';

    关于pyspark - Athena 仅更新特定分区 : MSCK REPAIR TABLE,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50998313/

    26 4 0