gpt4 book ai didi

hadoop - 如何优化 pig 中的大表读取和外部连接

转载 作者:可可西里 更新时间:2023-11-01 14:59:36 26 4
gpt4 key购买 nike

我要加入一张大 table 和另外 3 张 table ,

A = 通过 (f1,f2) RIGHT OUTER 加入小表,通过 (f1,f2) 加入 massiveTable;

B = 通过 (f3) RIGHT OUTER 加入 AnotherSmall,A 通过 (f3) ;

C = 通过 (f4) 加入 AnotherSmall,B 通过 (f4) ;

小表可能放不下内存,但是这会迫使十亿对象读取三次并且耗时,我想知道是否有任何方法可以避免重读并提高流程效率?

提前致谢。

最佳答案

如果您将 HBase 中的大表设计为具有三个列族,即从 f3 拆分 f1f2 >f4,你应该能够避免不必要的读取。

此外,如果您考虑一下,您不会重新阅读而是阅读记录的不同部分:首先是 f1f2,然后是 f3 最后是 f4

关于hadoop - 如何优化 pig 中的大表读取和外部连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12388740/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com