gpt4 book ai didi

hadoop - 长时间服用 pig 的DUMP

转载 作者:行者123 更新时间:2023-12-02 20:00:13 24 4
gpt4 key购买 nike

我有一个Pig脚本,我们在其中使用帮助UDF进行一些数据操作。

让我们理解一个例子。

data=someoperation;
olddata = newoperation;
Uniondata = UNION data,olddata;
DUMP Uniondata;

因此,在这里我使用DUMP来确保执行以上所有语句,而不是将数据流传输到控制台。我认为DUMP的执行方式会导致与性能相关的问题。在这里,要确保数据和olddata不会从UDF返回任何内容。我如何确保这些语句在不使用DUMP的情况下执行。

谢谢。

最佳答案

您可以为此使用ILLUSTRATE运算符。

Use the ILLUSTRATE operator to review how data is transformed through a sequence of Pig Latin statements. ILLUSTRATE allows you to test your programs on small datasets and get faster turnaround times.



因此,只需将DUMP替换为ILLUSTRATE。还对数据集进行采样以进行测试。
data=someoperation;
data= SAMPLE data 0.01; --# sample by 1%
olddata = newoperation;
uniondata = UNION data,olddata;
ILLUSTRATE Uniondata;

关于hadoop - 长时间服用 pig 的DUMP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36759597/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com