gpt4 book ai didi

Hadoop 和 Hive 优化

转载 作者:可可西里 更新时间:2023-11-01 16:48:36 26 4
gpt4 key购买 nike

我需要以下场景的帮助:

1)Memo表是hive中的源表。 共有5493656359条记录,其描述如下:

load_ts timestamp
memo_ban bigint
memo_id bigint
sys_creation_date timestamp
sys_update_date timestamp
operator_id bigint
application_id varchar(6)
dl_service_code varchar(5)
dl_update_stamp bigint
memo_date timestamp
memo_type varchar(4)
memo_subscriber varchar(20)
memo_system_txt varchar(180)
memo_manual_txt varchar(2000)
memo_source varchar(1)
data_dt string
market_cd string

Partition information:
data_dt string
market_cd string

2)

这是目标表

CREATE TABLE IF NOT EXISTS memo_temprushi (
load_ts TIMESTAMP,
ban BIGINT,
attuid BIGINT,
application VARCHAR(6),
system_note INT,
user_note INT,
note_time INT,
date TIMESTAMP)
PARTITIONED BY (data_dt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS ORC
TBLPROPERTIES ("orc.compress"="SNAPPY");

3)

这是从源表Memo到初始加载语句目标表 memo_temprushi。加载截至 2015 年 12 月 14 日的所有记录:

SET hive.exec.compress.output=true;
SET mapred.output.compression.type=BLOCK;
SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
INSERT INTO TABLE memo_temprushi PARTITION (DATA_DT)
SELECT LOAD_TS,MEMO_BAN, OPERATOR_ID, APPLICATION_ID,
CASE WHEN LENGTH(MEMO_SYSTEM_TXT)=0 THEN 0 ELSE 1 END,
CASE WHEN LENGTH(MEMO_MANUAL_TXT)=0 THEN 0 ELSE 1 END,
HOUR(MEMO_DATE), MEMO_DATE, DATA_DT
FROM tlgmob_gold.MEMO WHERE LOAD_TS < DATE('2015-12-15');

4)

对于增量加载,我想插入其余记录,即从 2015 年 12 月 15 日开始。我正在使用以下查询:

INSERT INTO TABLE memo_temprushi PARTITION (DATA_DT) 
SELECT MS.LOAD_TS,MS.MEMO_BAN, MS.OPERATOR_ID, MS.APPLICATION_ID,
CASE WHEN LENGTH(MS.MEMO_SYSTEM_TXT)=0 THEN 0 ELSE 1 END,
CASE WHEN LENGTH(MS.MEMO_MANUAL_TXT)=0 THEN 0 ELSE 1 END,
HOUR(MS.MEMO_DATE), MS.MEMO_DATE, MS.DATA_DT
FROM tlgmob_gold.MEMO MS JOIN (select max(load_ts) max_load_ts from memo_temprushi) mt
ON 1=1
WHERE
ms.load_ts > mt.max_load_ts;

它启动了 2 个作业。最初它会警告阶段是交叉产品。第一份工作很快就完成了,但第二份工作仍然停留在减少 33%。日志显示:[EventFetcher for fetching Map Completion Events] org.apache.hadoop.mapreduce.task.reduce.EventFetcher: EventFetcher is interrupted.. Returning它表明 reducer 的数量为1。尝试通过此命令集 mapreduce.job.reduces 增加 reducer 的数量,但它不起作用。

谢谢

最佳答案

你可以试试这个。

  • 运行“从 memo_temprushi 中选择 max(load_ts) max_load_ts”
  • 在查询的where条件中添加值,去掉查询的join条件。

如果可行,那么您可以开发 shell 脚本,其中第一个查询将获得最大值,然后运行第二个查询而不连接。

这是示例 shell 脚本。

max_date=$(hive -e "select max(order_date) from orders" 2>/dev/null)

hive -e "select order_date from orders where order_date >= date_sub('$max_date', 7);"

关于Hadoop 和 Hive 优化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34479304/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com