gpt4 book ai didi

hadoop - 带 block 压缩的序列文件

转载 作者:可可西里 更新时间:2023-11-01 15:41:19 25 4
gpt4 key购买 nike

我需要启用带有 block 压缩数据的序列文件。下面是将存储为 SequenceFile 的表格。

create table lip_data_quality
( buyer_id bigint,
total_chkout bigint,
total_errpds bigint
)
partitioned by (dt string)
row format delimited fields terminated by '\t'
stored as sequencefile
location '/apps/hdmi-technology/b_apdpds/lip-data-quality'
;

在上表中,我通过启用这些命令以压缩格式获取数据-

set mapred.output.compress=true;
set mapred.output.compression.type=BLOCK;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec;

所以我的问题是,这就是启用序列文件 BLOCK 压缩所需的全部吗?或者还有什么我需要做的吗?我正在关注这篇文章 Hadoop

任何建议将不胜感激。

更新:-

我通过将所有内容放入 .hql 文件 并从 shell 命令提示符运行该 hql 文件 来加载上表中的数据。并在每次运行以下 hql 文件时更改分区日期。

set mapred.output.compress=true;
set mapred.output.compression.type=BLOCK;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.LzoCodec;

insert overwrite table lip_data_quality partition (dt='20120712')
SELECT query here which will give the output for the above table.

最佳答案

那应该没问题。您也可以通过查看 HDFS 上的文件来验证它。加载后,HDFS 中应该有一个名为/user/hive/warehouse/lip_data_quality/dt=20120712 的目录。如果你跑

hadoop fs -cat

在该文件夹中的其中一个文件上,您应该能够看到文件的标题,它会为您提供有关该文件的基本信息。

关于hadoop - 带 block 压缩的序列文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11804398/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com