gpt4 book ai didi

hive - Hive 是否重复数据?

转载 作者:行者123 更新时间:2023-12-04 18:36:54 28 4
gpt4 key购买 nike

我有一个很大的日志文件,我加载到 HDFS . HDFS将根据机架感知复制到不同的节点。

现在我将相同的文件加载到配置单元表中。命令如下:

create table log_analysis (logtext string) STORED AS TEXTFILE
LOCATION '/user/hive/warehouse/';

LOAD DATA INPATH '/user/log/apache.log' OVERWRITE INTO TABLE log_analysis;

现在,当我去查看“/user/hive/warehouse/”目录时,有一个表文件并将其复制到本地,其中包含所有日志文件数据。

我的问题是: HDFS 中的现有文件被复制。然后将该文件加载到 hive 表中,存储在 HDFS也会被复制。

这不是存储了 6 次的同一个文件(假设复制因子为 3)?那将是一种资源的浪费。

最佳答案

正确,如果您从 HDFS 加载数据,数据从 HDFS 移动到 /user/hive/warehouse/yourdatabasename/tablename .

关于hive - Hive 是否重复数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33559733/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com