gpt4 book ai didi

hadoop - Hadoop tmp目录变得巨大

转载 作者:行者123 更新时间:2023-12-02 21:41:46 29 4
gpt4 key购买 nike

我的问题是我有5个节点的Hadoop群集,群集上的文件需要350 GB。我正在运行一个Pig脚本,该脚本连接了三个不同的文件并将它们连接在一起。
作业每次运行少于30分钟即可完成所有 map task ,然后运行6个小时才能完成还原任务,在最佳情况下,所有这些还原任务最终都会失败。在最坏的情况下,我的Hadoop卡住了,这是由于进入安全模式的namenode导致其空间不足(超出了配额)所致。

由tmp目录占用大厅可用空间(7TB !!)引起的问题。
我的脚本如下所示:

info_file = LOAD '$info' as (name, size, type,generation,streamId);
chunks_file = LOAD '$chunk' as (fp, size);
relation_file = LOAD '$relation' as (fp, filename);

chunks_relation = JOIN chunks_file BY fp, relation_file BY fp;
chunks_files= JOIN chunks_relation BY $3, info_file BY $0;

result = FOREACH chunks_files GENERATE $0,$1,$3,$5,$6,$7,$8;
STORE result INTO '$out';

任何的想法 ??

最佳答案

您的脚本看起来不错。您要加入的文件大小是多少?

在任何地方,Join都是昂贵的运算符。您可以通过使用Pig中的复制,偏斜,合并联接来优化联接。仔细阅读这些联接文档,然后根据您的文件大小和要求进行应用。

https://bluewatersql.wordpress.com/category/Pig/

关于hadoop - Hadoop tmp目录变得巨大,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28220715/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com