gpt4 book ai didi

hadoop - 作为输入可以使用Apache Pig Load Function Bag吗?

转载 作者:行者123 更新时间:2023-12-02 21:52:59 27 4
gpt4 key购买 nike

如果我用构造函数编写自定义的加载函数

MyLoadFunction(String someOptions, DataBag myBag)

如何使用Piglatin执行此功能?
X = load 'foo.txt' using MyLoadFunction('myString', myBagAlias);

这行不通,有可能吗?

谢谢

最佳答案

我不确定您的需求是否适合Pig。 Pig的全部工作就是加载大量数据,然后通过管道将这些数据放入。听起来您想要更多的过程,以加载少量数据,进行一些处理,基于此做出决定,然后按照该算法进行操作。

因此,我不确定这是否是最好的选择,但是您可以尝试编写可访问HBase并获取所需数据的UDF。 LOAD在这里不合适,因为LOAD不返回包,它返回Pig希望您进行一些转换的关系。但是您可以将一个包作为输入传递给UDF,然后在该UDF内进行所需的HBase查找和处理。

一种更实用的方法是将所有相关的HBase数据加载到一个或多个关系中,然后根据需要执行JOIN将所需的数据片段组合在一起。

关于hadoop - 作为输入可以使用Apache Pig Load Function Bag吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18357866/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com