gpt4 book ai didi

hadoop - 使用 HDFS 更改更新 Hive 外部表

转载 作者:可可西里 更新时间:2023-11-01 14:18:16 29 4
gpt4 key购买 nike

比方说,我从文件 myFile.csv(位于 HDFS 中)创建了 Hive 外部表“myTable”。

myFile.csv 每天都在变化,那么我也有兴趣每天更新一次“myTable”。

是否有任何 HiveQL 查询告诉每天更新表?

谢谢。

附言

我想知道它是否以与目录相同的方式工作:假设,当“myDir”包含 10 个文件时,我从 HDFS 目录“myDir”创建 Hive 分区。第二天“myDIr”包含 20 个文件(添加了 10 个文件)。我应该更新 Hive 分区吗?

最佳答案

Hive 中基本上有两种类型的表。

一个是Managed table,由hive仓库管理,每当你创建一个表时,数据都会被复制到内部仓库中。您不能在查询输出中包含最新数据

另一种是外部表,hive 不会将其数据复制到内部仓库

因此,无论何时您在表上触发查询,它都会从文件中检索数据。

因此您甚至可以在查询输出中获得最新数据。

这是外部表的目标之一。

您甚至可以删除表格并且数据不会丢失。

关于hadoop - 使用 HDFS 更改更新 Hive 外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17027853/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com