数据仓库建模工具之一——Hive学习第四天

转载作者：撒哈拉更新时间：2024-07-18 22:58:42

60

4

Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

show tables;
show tables like 'u*';
desc t_person;
desc formatted students; // 更加详细

1.3.3 加载数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

2、使用 load data

下列命令需要在hive shell里执行。

create table IF NOT EXISTS students2
(
    id bigint,
    name string,
    age int,
    gender string,
    clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';

// 将HDFS上的/input1目录下面的数据 移动至 students表对应的HDFS目录下，注意是 **移动、移动、移动**
load data inpath '/input1/students.txt' into table students;

注意：使用hdfs导入数据至hive，使用的是剪切操作，即原hdfs路径下的文件在被导入到hive中之后，原路径下的文件就不复存在

// 清空表
truncate table students;
// 加上 local 关键字 可以将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 **原文件不会被删除,是复制，不是移动**
load data local inpath '/usr/local/soft/data/students.txt' into table students;
// overwrite 覆盖加载
load data local inpath '/usr/local/soft/data/students.txt' overwrite into table students;

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句（没有as）

create table IF NOT EXISTS students3
(
    id bigint,
    name string,
    age int,
    gender string,
    clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',';


// 将 students表的数据插入到students2 这是复制 不是移动 students表中的数据不会丢失
insert into table students2 select * from students;

// 覆盖插入 把into 换成 overwrite
insert overwrite table students2 select * from students;

1.3.4 修改列

查询表结构。

desc students2;

添加列。

alter table students2 add columns (education string);

添加列之后，查询表的数据，新增的那一列是没有具体的数据进行映射的，所以全是null
当向其中插入新的数据时，新的数据和原先的数据在HDFS中看似是分开的，但是其实就是一个表数据，
注意的是新的数据插入之后不会影响之前的数据，在HDFS中没有对应的数据，就相当于没有映射过来就是null

查询表结构。

desc students2;

更新列。

alter table stduents2 change education educationnew string;

1.3.5 删除表

drop table students2;

1.4 Hive内外部表

面试题：内部表和外部表的区别？如何创建外部表？工作中使用外部表。

1.4.1 hive内部表

当创建好表的时候，HDFS会在当前表所属的库中创建一个文件夹。

当设置表路径的时候，如果直接指向一个已有的路径,可以直接去使用文件夹中的数据。

当load数据的时候，就会将数据文件存放到表对应的文件夹中。

而且数据一旦被load，就不能被修改。

我们查询数据也是查询文件中的文件,这些数据最终都会存放到HDFS 。

当我们删除表的时候，表对应的文件夹会被删除，同时数据也会被删除。

默认建表的类型就是内部表。

// 内部表
create table students_internal
(
    id bigint,
    name string,
    age int,
    gender string,
    clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/input2';

hive> dfs -put /usr/local/soft/data/students.txt /input2/;

1.4.1 Hive外部表

外部表说明。

外部表因为是指定其他的hdfs路径的数据加载到表中来，所以hive会认为自己不完全独占这份数据。

删除hive表的时候，数据仍然保存在hdfs中，不会删除.

删除外部表只会删除hive中的映射出来的数据表，以及存在MySQL中的数据的元数据信息.

// 外部表
create external table students_external
(
    id bigint,
    name string,
    age int,
    gender string,
    clazz string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION '/hive_test/input3';

hive> dfs -put /usr/local/soft/data/students.txt /input3/;

删除表测试一下:

hive> drop table students_internal;
Moved: 'hdfs://master:9000/input2' to trash at: hdfs://master:9000/user/root/.Trash/Current
OK
Time taken: 0.474 seconds
hive> drop table students_external;
OK
Time taken: 0.09 seconds
hive>

一般在公司中，使用外部表多一点，因为数据可以需要被多个程序使用，避免误删，通常外部表会结合location一起使用。

外部表还可以将其他数据源中的数据映射到 hive中，比如说：hbase，ElasticSearch...... 。

设计外部表的初衷就是让表的元数据与数据解耦。

操作案例: 分别创建dept，emp，salgrade。并加载数据。

创建数据文件存放的目录。

hdfs dfs -mkdir -p /bigdata/hive_test1/dept
hdfs dfs -mkdir -p /bigdata/hive_test1/emp
hdfs dfs -mkdir -p /bigdata/hive_test1/salgrade

创建dept表

CREATE EXTERNAL TABLE IF NOT EXISTS dept (
  DEPTNO int,
  DNAME string,
  LOC string
) row format delimited fields terminated by ','
location '/hive_test/dept';

10,ACCOUNTING,NEW YORK
20,RESEARCH,DALLAS
30,SALES,CHICAGO
40,OPERATIONS,BOSTON

创建emp表

CREATE EXTERNAL TABLE IF NOT EXISTS emp (
   EMPNO int,
   ENAME string,
   JOB string,
   MGR int,
   HIREDATE date,
   SAL int,
   COMM int,
   DEPTNO int
 ) row format delimited fields terminated by ','
 location '/hive_test/emp';
 
7369,SMITH,CLERK,7902,1980-12-17,800,null,20
7499,ALLEN,SALESMAN,7698,1981-02-20,1600,300,30
7521,WARD,SALESMAN,7698,1981-02-22,1250,500,30
7566,JONES,MANAGER,7839,1981-04-02,2975,null,20
7654,MARTIN,SALESMAN,7698,1981-09-28,1250,1400,30
7698,BLAKE,MANAGER,7839,1981-05-01,2850,null,30
7782,CLARK,MANAGER,7839,1981-06-09,2450,null,10
7788,SCOTT,ANALYST,7566,1987-07-13,3000,null,20
7839,KING,PRESIDENT,null,1981-11-17,5000,null,10
7844,TURNER,SALESMAN,7698,1981-09-08,1500,0,30
7876,ADAMS,CLERK,7788,1987-07-13,1100,null,20
7900,JAMES,CLERK,7698,1981-12-03,950,null,30
7902,FORD,ANALYST,7566,1981-12-03,3000,null,20
7934,MILLER,CLERK,7782,1982-01-23,1300,null,10

创建salgrade表

CREATE EXTERNAL TABLE IF NOT EXISTS salgrade (
  GRADE int,
  LOSAL int,
  HISAL int
) row format delimited fields terminated by ','
location '/hive_test/salgrade';

1,700,1200
2,1201,1400
3,1401,2000
4,2001,3000
5,3001,9999

1.5 Hive导出数据

将表中的数据备份。

将查询结果存放到本地

//创建存放数据的目录
mkdir -p /usr/local/soft/bigdata

//导出查询结果的数据(导出到Node01上)
insert overwrite local directory '/usr/local/soft/bigdata/person_data' select * from t_person;

按照指定的方式将数据输出到本地

-- 创建存放数据的目录
mkdir -p /usr/local/soft/bigdata

-- 导出查询结果的数据
insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/person' 
ROW FORMAT DELIMITED fields terminated by ',' 
collection items terminated by '-' 
map keys terminated by ':' 
lines terminated by '\n' 
select * from t_person;

insert overwrite local directory '/usr/local/soft/bigdata/hive_test1/stu' 
ROW FORMAT DELIMITED fields terminated by ','  
lines terminated by '\n' 
select clazz,count(1) as count from students group by clazz;

将查询结果输出到HDFS

将sql语句的查询结果输出到HDFS中时，在HDFS上是直接将该结果存放在指定的文件夹里.

-- 创建存放数据的目录
hdfs dfs -mkdir -p /bigdata/hive_test1/copy

-- 导出查询结果的数据
insert overwrite directory '/bigdata/copy2' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' select * from students

直接使用HDFS命令保存表对应的文件夹

// 创建存放数据的目录
hdfs dfs -mkdir -p /bigdata/person

// 使用HDFS命令拷贝文件到其他目录
hdfs dfs -cp /hive/warehouse/t_person/*  /bigdata/person

将表结构和数据同时备份
将数据导出到HDFS

将数据导出到HDFS中时，会在指定的文件目录下产生一个该数据的元数据文件信息_metadata和一个用于存放真实数据的文件夹 data，在该文件夹下面才是数据文件。

//创建存放数据的目录
hdfs dfs -mkdir -p /bigdata/copy

//导出查询结果的数据
export table t_person to '/bigdata/copy';

删除表结构。

drop table t_person;

恢复表结构和数据。

import from '/bigdata;

注意：时间不同步，会导致导入导出失败。

最后此篇关于数据仓库建模工具之一——Hive学习第四天的文章就讲到这里了,如果你想了解更多关于数据仓库建模工具之一——Hive学习第四天的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

60

4

0

文章推荐： Figma数值输入框支持拖拽调整功能实现

文章推荐：适用于.NET的现代化、流畅、可测试的HTTP客户端库

文章推荐：反射快速入门

文章推荐：为什么StampedLock会导致CPU100%？

android - 安装了最新的 ADT 和 sdk 工具，但仍然要求提供最新的 sdk 工具
这个问题在这里已经有了答案: Android ADT version required 20.0.0 and above (10 个答案) 关闭 9 年前。我刚刚安装了 Eclipse Juno
Visual Studio 2012 的 Python 工具。工具/选项窗口中缺少 Python
按照 This page from codeplex 上的指南进行操作后，我无法在我的工具/选项窗口中看到 Python 选项。我认为我与指南的唯一偏差是: 发行版:没有安装 activestate
sql-server - 此 T-SQL 脚本超出了允许的最大大小。通过从“工具”菜单中选择“选项”，在“SQL Server 工具”页面中调整此设置
我有一个非常大的 .sql 脚本。我将此脚本添加到 Visual Studio 2013 下的 SQL Server 项目中。当我尝试构建它时，我收到此错误消息 This T-SQL script e
【工具】IDEA怎么查看maven依赖链路？
当我在SpringBoot项目中想加个依赖，但是不确定现有依赖的依赖的依赖.....有没有添加过这个依赖，怎么办呢？如果添加过了但是不知道我需要的这个依赖属于哪个依赖的下面，怎么查呢？ IDEA中提供
PDF压缩库/工具
我正在做一个项目来减少 PDF 的大小，压缩它们。我想知道市场上是否有任何非常好的工具/库(.NET)。我确实尝试了一些像 Onstream Compression 这样的工具，但结果并不令人满意。
自动编译Android内核/工具
我想从我的源代码编译一个安卓内核。但我想使用工具或类似的东西。所以我只需单击一个按钮并获得一个可闪存的 zip 文件... 有工具吗？我可以用脚本来做吗？谢谢! 最佳答案这取决于您从哪里获得
用于简单分布式计算问题的Java框架/工具
我们生成 pdf 文件，其中包含有关数万名客户每月财务余额的数据。在高峰期(年底有 100.000 个文件)，使用在 5 台服务器之间分配负载，该过程可能需要长达 5 天的时间才能完成。工作负载的分配
进一步了解Python中的XML 工具
模块：xmllib xmllib 是一个非验证的低级语法分析器。应用程序员使用的 xmllib 可以覆盖 XMLParser 类，并提供处理文档元素（如特定或类属标记，或字符实体）的方法。从 Py
Maven Lint 工具
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 3 年前。
excel - 用于确定位置之间距离的方法/工具
我在一家医疗保健公司工作，拥有有关患者位置(地址、城市、州、 zip )的信息。我试图确定有多少百分比的患者住在离 5 个特定位置最近的地方。我正在寻找的答案是“25% 的患者住在离#1 地点最近的地
用于解压缩任何文件压缩格式的 Linux 工具
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 4年前关闭。我们不允许在 Stack Overflow 上提出有关通用计算硬件和软件的问题。您可以编辑问
ide - 您多久重新评估和升级一次开发环境和开发人员。工具？
As it currently stands, this question is not a good fit for our Q&A format. We expect answers to be
wcf - SvcTraceViewer 工具
请问我在哪里可以得到 SvcTraceViewer 工具？我尝试下载并安装许多 SDK。我查看了程序文件的垃圾箱。我需要它来跟踪我的 WCF 调用出了什么问题。最佳答案您可以通过下载 Win
autocomplete - 通用代码完成库/工具
我正在尝试在我最喜欢的编辑器中设置适当的代码完成功能，我们将其称为AnEditor，以避免互联网上充斥着特定于程序的答案。 (您知道语言是ALanguage。)编辑器具有两个我喜欢的功能:它既可以在控
不允许使用 Orm 工具 : What do you do?
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Mercurial和 merge 工具？
当 merge 的两个分支对同一文件有更改时，Mercurial 是否总是使用外部 merge 工具？或者它是否首先查看它是否可以 merge 文件本身，如果不能，则仅转向外部工具？我问的原因是我
用于删除所有未使用代码的 Scala 工具
我正在为我使用的编辑器编写 Scala 插件，该插件将突出显示所有未使用的代码路径(可能未使用 defs 、 vals 、 classes 和 implicits )，并为用户提供一个选项以将它们从.
Jquery 工具触摸水平仅禁用垂直触摸
我有 jquery 工具滚动器...我喜欢它只为 swipeLeft swipeRight 实现触摸选项。当我使用 touch: true 时，它也会在向上/向下滑动时旋转.. 我按照此处的说明
Eclipse UML 工具
我已经尝试了一些用于构建 UML(对象/依赖图)的 Eclipse 工具，但我真正需要的是一个工具来生成这样的代码外 UML。 (反之亦然) 我更喜欢一个简单的 UML 工具，它易于安装并且没有任何依
CSS "Normalizer"工具？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为

首页

博学

6Ren·AI

商城

数据仓库建模工具之一——Hive学习第四天

Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

1.3.3 加载数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

2、使用 load data

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句（没有as）

1.3.4 修改列

1.3.5 删除表

1.4 Hive内外部表

1.4.1 hive内部表

1.4.1 Hive外部表

1.5 Hive导出数据

首页

博学

6Ren·AI

商城

数据仓库建模工具之一——Hive学习第四天

Hive的基本操作

1.3HIve的表操作（接着昨天的继续学习）

1.3.2 显示表

1.3.3 加载数据

1、使用hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'

2、使用 load data

3、create table xxx as SQL语句

4、insert into table xxxx SQL语句 （没有as）

1.3.4 修改列

1.3.5 删除表

1.4 Hive内外部表

1.4.1 hive内部表

1.4.1 Hive外部表

1.5 Hive导出数据

1、使用`hdfs dfs -put '本地数据' 'hive表对应的HDFS目录下'`

4、insert into table xxxx SQL语句（没有as）