gpt4 book ai didi

hadoop - 如何预处理数据并加载到配置单元中

转载 作者:可可西里 更新时间:2023-11-01 16:51:22 26 4
gpt4 key购买 nike

我完成了 Hadoop 类(class),现在我想从事 Hadoop 方面的工作。我想了解从数据摄取到可视化数据的工作流程。

我知道生态系统组件是如何工作的,并且我已经构建了具有 8 个数据节点和 1 个名称节点的 hadoop 集群:1 namenode --Resourcemanager,Namenode,secondarynamenode,hive8个datanode--datanode,Nodemanager

我想知道以下事情:

  1. 我得到了数据 .tar 结构文件,前 4 行有描述。如何处理这种类型的数据我有点困惑。1.a 我可以直接处理数据吗,因为这些是 tar 文件。如果可以,如何删除前四行中的数据我需要解压缩并删除前 4 行1.b 并且我想使用配置单元处理这些数据。

请建议我该怎么做。

提前致谢。

最佳答案

Can I directly process the data as these are tar files.

是的,请参阅下面的解决方案。

if yes, how to remove the data in the first four lines

Hive v0.13.0开始,创建表时有一个表属性tblproperties("skip.header.line.count"="1")告诉 Hive 要忽略的行数。忽略前四行 - tblproperties ("skip.header.line.count"="4")

CREATE TABLE raw (line STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n';

CREATE TABLE raw_sequence (line STRING)
STORED AS SEQUENCEFILE
tblproperties("skip.header.line.count"="4");

LOAD DATA LOCAL INPATH '/tmp/test.tar' INTO TABLE raw;

SET hive.exec.compress.output=true;
SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK (see below)

INSERT OVERWRITE TABLE raw_sequence SELECT * FROM raw;

查看数据:

select * from raw_sequence

引用:Compressed Data Storage

关于hadoop - 如何预处理数据并加载到配置单元中,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32882269/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com