gpt4 book ai didi

hive - 如何使用 Hive 创建具有单个 hdfs 路径的 n 个外部表

转载 作者:行者123 更新时间:2023-12-02 20:17:52 26 4
gpt4 key购买 nike

是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表。如果是,有什么优点和局限性。

最佳答案

可以在 HDFS 的同一位置上创建许多表(同时包括托管表和外部表)。

在相同数据上创建具有完全相同架构的表根本没有用,但是您可以创建具有不同列数的不同表,或者使用 RegexSerDe 创建具有不同解析列的不同表,因此您可以在这些表中使用不同的架构表。您可以在 Hive 中对这些表拥有不同的权限。也可以在其他一些表文件夹的子文件夹之上创建表,在这种情况下,它将包含一个数据子集。更好地使用单个表中的分区。

缺点是它令人困惑,因为您可以使用多个表重写相同的数据,并且您可能会意外删除它,认为该数据属于唯一的表,您可以删除数据,因为您不再需要该表.

这是几个测试:

创建具有 INT 列的表:

create table T(id int);
OK
Time taken: 1.033 seconds

查看位置和其他属性:
hive> describe formatted T;
OK
# col_name data_type comment

id int

# Detailed Table Information
Database: my
Owner: myuser
CreateTime: Fri Jan 04 04:45:03 PST 2019
LastAccessTime: UNKNOWN
Protect Mode: None
Retention: 0
Location: hdfs://myhdp/user/hive/warehouse/my.db/t
Table Type: MANAGED_TABLE
Table Parameters:
transient_lastDdlTime 1546605903

# Storage Information
SerDe Library: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat: org.apache.hadoop.mapred.TextInputFormat
OutputFormat: org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed: No
Num Buckets: -1
Bucket Columns: []
Sort Columns: []
Storage Desc Params:
serialization.format 1
Time taken: 0.134 seconds, Fetched: 26 row(s)
sts)

在相同位置的顶部创建第二个表,但使用 STRING 列:
hive> create table T2(id string) location 'hdfs://myhdp/user/hive/warehouse/my.db/t';
OK
Time taken: 0.029 seconds

插入数据:
hive> insert into table T values(1);
OK
Time taken: 33.266 seconds

查看数据:
hive> select * from T;
OK
1
Time taken: 3.314 seconds, Fetched: 1 row(s)

插入第二个表:
hive> insert into table T2 values( 'A');
OK
Time taken: 23.959 seconds

查看数据:
hive> select * from T2;
OK
1
A
Time taken: 0.073 seconds, Fetched: 2 row(s)

从第一个表中选择:
hive> select * from T;
OK
1
NULL
Time taken: 0.079 seconds, Fetched: 2 row(s)

字符串被选为 NULL,因为该表被定义为具有 INT 列。

现在将 STRING 插入第一个表(INT 列):
insert into table T values( 'A');
OK
Time taken: 84.336 seconds

惊喜,它没有​​失败!

插入了什么?
hive> select * from T2;
OK
1
A
NULL
Time taken: 0.067 seconds, Fetched: 3 row(s)

插入了 NULL,因为在之前的插入期间,字符串被转换为 int,这导致了 NULL

现在让我们尝试删除一个表并从另一个表中选择:
hive> drop table T;
OK
Time taken: 4.996 seconds
hive> select * from T2;
OK
Time taken: 6.978 seconds

返回 0 行,因为第一个表是 MANAGED 并且删除表也删除了公共(public)位置。

结束,

数据被删除,我们需要没有数据的 T2 表吗?
drop table T2;
OK

第二个表被删除了,你看,它只是元数据。该表也被管理和 drop table也应该删除带有数据的位置,但是在 HDFS 中已经没有什么要删除的了,只删除了元数据。

关于hive - 如何使用 Hive 创建具有单个 hdfs 路径的 n 个外部表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62311061/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com