gpt4 book ai didi

python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问?

转载 作者:可可西里 更新时间:2023-11-01 15:34:02 26 4
gpt4 key购买 nike

在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(~10k 条记录)。但我不确定如何将此文本文件分发到 pig 中并在运行时访问它们。请帮助..!!

最佳答案

这是使用 Pig 的 fragment-replicate join 的完美用例算法。您只需将查找表加载为 Pig 关系并将其与您的实际数据结合起来。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意,您要加载到内存中的表应该位于连接的右侧,如我上面所示。

关于python - Apache Pig - 如何维护分布式查找表供我的 python UDF 访问?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28382053/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com