hive - 如何使用 Hive 创建具有单个 hdfs 路径的 n 个外部表-6ren

hive - 如何使用 Hive 创建具有单个 hdfs 路径的 n 个外部表

转载作者：行者123 更新时间：2023-12-03 23:36:26

24

4

是否可以使用 Hive 创建 n 个指向单个 hdfs 路径的外部表。如果是，有什么优点和局限性。

最佳答案

可以在 HDFS 的同一位置上创建许多表(同时包括托管表和外部表)。

在相同数据之上创建具有完全相同架构的表根本没有用，但是您可以创建具有不同列数的不同表，或者使用 RegexSerDe 创建具有不同解析列的不同表，这样您就可以有不同的这些表中的模式。您可以在 Hive 中对这些表拥有不同的权限。也可以在其他一些表文件夹的子文件夹之上创建表，在这种情况下，它将包含一个数据子集。最好在单个表中使用分区。

缺点是它很困惑，因为您可以使用多个表重写相同的数据，而且您可能会意外删除它，认为该数据属于唯一的表，您可以删除数据，因为您不需要表了。

这是几个测试:

用 INT 列创建表:

create table T(id int);
OK
Time taken: 1.033 seconds

检查位置和其他属性:

hive> describe formatted T;
OK
# col_name              data_type               comment

id                      int

# Detailed Table Information
Database:               my
Owner:                  myuser
CreateTime:             Fri Jan 04 04:45:03 PST 2019
LastAccessTime:         UNKNOWN
Protect Mode:           None
Retention:              0
Location:               hdfs://myhdp/user/hive/warehouse/my.db/t
Table Type:             MANAGED_TABLE
Table Parameters:
        transient_lastDdlTime   1546605903

# Storage Information
SerDe Library:          org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe
InputFormat:            org.apache.hadoop.mapred.TextInputFormat
OutputFormat:           org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Compressed:             No
Num Buckets:            -1
Bucket Columns:         []
Sort Columns:           []
Storage Desc Params:
        serialization.format    1
Time taken: 0.134 seconds, Fetched: 26 row(s)
                                                                                                  sts)

在相同位置的顶部创建第二个表，但使用 STRING 列:

hive> create table T2(id string) location 'hdfs://myhdp/user/hive/warehouse/my.db/t';
OK
Time taken: 0.029 seconds

插入数据:

hive> insert into table T values(1);
OK
Time taken: 33.266 seconds

检查数据:

hive> select * from T;
OK
1
Time taken: 3.314 seconds, Fetched: 1 row(s)

插入第二个表格:

hive> insert into table T2 values( 'A');
OK
Time taken: 23.959 seconds

检查数据:

hive> select * from T2;
OK
1
A
Time taken: 0.073 seconds, Fetched: 2 row(s)

从第一个表中选择:

hive> select * from T;
OK
1
NULL
Time taken: 0.079 seconds, Fetched: 2 row(s)

String 被选为 NULL，因为该表被定义为具有 INT 列。

现在将 STRING 插入第一个表(INT 列):

insert into table T values( 'A');
OK
Time taken: 84.336 seconds

惊喜，它没有失败!

插入了什么？

hive> select * from T2;
OK
1
A
NULL
Time taken: 0.067 seconds, Fetched: 3 row(s)

NULL 被插入，因为在之前的插入过程中，字符串被转换为 int，这导致了 NULL

现在让我们尝试删除一个表并从另一个表中选择:

hive> drop table T;
OK
Time taken: 4.996 seconds
hive> select * from T2;
OK
Time taken: 6.978 seconds

返回 0 行，因为第一个表已管理，并且删除表也删除了公共(public)位置。

结束，

数据被删除，我们需要没有数据的T2表吗？

drop table T2;
OK

第二个表被删除了，你看，它只是元数据。该表也被管理，drop table 也应该删除带有数据的位置，但在 HDFS 中已经没有什么可删除的了，只删除了元数据。

关于hive - 如何使用 Hive 创建具有单个 hdfs 路径的 n 个外部表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54037792/

24

4

0

文章推荐： c - 带有 Rcpp 的 .c 和 .cpp 文件的 R 包

文章推荐： jenkins - 如何从 Jenkinsfile 获取 "Scan Repository Now"

文章推荐： php - 如何触发woocommerce回调函数？

带有通配符的 webpack 外部
如何指示 webpack 排除所有 d3 模块？ // does not work externals: { "d3-*": "d3" } 所以如果应用导入了d3-submod
Scala 外部 => 语法
这个问题在这里已经有了答案: 9年前关闭。 Possible Duplicate: What does “outer =>” really mean? 我在哪里可以找到有关信息 trait After
javascript - 外部 for 循环时的非线性性能
这是一个简单的循环，我正在尝试对性能进行基准测试。 var extremeLoop=function(n){ var time=new Date() var t=0; for(
jquery - 外部+内联样式与仅外部样式
问题+概述下面是两个片段，其中包含最初隐藏的 div，然后通过单击 button 和 jQuery 的 .show() 显示。两个 div 都具有由外部样式表应用的 display: grid; 样
javascript - 外部.js文件获取不到页面元素？
我有一个 HTML 页面和一个单独的 .js 文件，该文件包含在带有的页面中标签。这是我的 .js 文件: element = document.getElementById("test");
类的第二个实现文件中静态字段的 C++ 外部？
我在 linux 静态库项目中有 3 个文件，我想在两个类方法实现文件中使用的静态字段存在链接问题。我有 class1.h、class1main.cpp 和 class1utils.cpp。 clas
javascript - 外部单击以重置颜色？
我正在尝试将颜色背景更改为默认背景颜色，当我点击输入框外我尝试使用“null”或“none”但没有用？ window.addEventListener('click', outsideClick);
Android 文件选择器将音频文件重定向到/外部
我正在编写一个应用程序，要求用户在手机上选择各种类型的文件。我使用此代码启动文件选择器 Intent : Intent intent = new Intent(Intent.ACTION_GET_C
android - 外部-内部存储
在 android 中，不可移动(内部)的外部存储和内部存储有什么区别？我不确定在哪里保存我的数据。我只需要保存一个人可以随时提取的游戏统计数据谢谢最佳答案在许多较新的设备中，将不再有物理区别，
c++ - 外部、链接和全局变量
在 C++ 中，假设我们有这个头文件: myglobals.h #ifndef my_globals_h #define my_globals_h int monthsInYear = 12; #en
C++ 外部/多重定义
我正在尝试使用 externs 在 C++ 中连接到 Ada。这两种实现有什么区别？实现A namespace Ada { extern "C" { int getN
jQuery: 外部 html()
这个问题在这里已经有了答案: Get selected element's outer HTML (30 个答案) 关闭 2 年前。想象一下我们有这样的东西: Hello World 如果我们这样
vb6 - 外部 DLL 应该放在哪里？
假设我在模块的顶部有这个: Public Declare Function getCustomerDetails Lib "CustomerFunctions" () As Long 如果我从 VB6
javascript - 外部 Javascript 文件获取？
我目前正在使用这段代码: var wordRandomizer = { run: function (targetElem) { var markup = this.creat
svn - 如何部署 Subversion 外部？
我们正在使用 SVN 试水，并以 Beanstalk 作为主机。我们的设置如下所示: 存储库:模块模块一模块二模块 3 存储库:网站1 自定义网站代码 svn:对模块 1 的外部引用 svn:对
Kubernetes 外部 ip 负载均衡器裸机
有没有办法在负载均衡器中设置自动外部 IP 分配给像谷歌这样的服务？我在裸机上运行 Kubernetes。谢谢最佳答案使用 nodePort 类型的服务，它会将您的服务绑定(bind)到所有节
symfony - generateUrl 外部 Controller
是否有可能在 Controller 之外使用 generateUrl() 方法？我尝试在带有 $this->get('router') 的自定义存储库类中使用它，但它没有用。更新我在这里找到了一
Angular 作为 Webpack 外部
我目前正在尝试通过 Webpack 外部对象外部化 Angular 依赖项来缩短构建时间。到目前为止，我已经为 React 和其他小库实现了这一目标。如果我只是移动 '@angular/compil
gradle - 创建一个依赖于另一个(外部)插件的Gradle插件
我想创建一个自动应用其他插件的插件(外部插件)。这要求在我称为“应用插件”之前为插件设置构建脚本依赖项。但是似乎我无法在插件中添加buildscript依赖项，或者得到了: 您不能更改处于未解析状态的
r - 创建自定义几何图形来计算汇总统计数据并在绘图区域*外部*显示它们
我是R包的创建者EnvStats . 有一个我经常使用的函数，叫做 stripChart .我刚开始学习ggplot2 ，并在过去几天里仔细研究了 Hadley 的书、Winston 的书、Stack

首页

博学

6Ren·AI

商城

hive - 如何使用 Hive 创建具有单个 hdfs 路径的 n 个外部表