gpt4 book ai didi

hadoop - pig : Perform task on completion of UDF

转载 作者:可可西里 更新时间:2023-11-01 14:47:35 24 4
gpt4 key购买 nike

在 Hadoop 中,我有一个看起来像这样的 Reducer,用于将数据从先前的映射器转换为一系列非 InputFormat 兼容类型的文件。

protected void setup(Context context) {
LocalDatabase ld = new LocalDatabase("localFilePath");
}

protected void reduce(BytesWritable key, Text value, Context context) {
ld.addValue(key, value)
}

protected void cleanup(Context context) {
saveLocalDatabaseInHDFS(ld);
}

我正在用 Pig 重写我的应用程序,但无法弄清楚如何在 Pig UDF 中完成此操作,因为没有清理功能或任何其他可指示 UDF 何时完成运行的功能。如何在 pig 身上做到这一点?

最佳答案

我会说你需要写一个 StoreFunc UDF,包装您自己的自定义 OutputFormat - 然后您就可以在输出格式的 RecordWriter.close() 方法中关闭。

然而,这会在 HDFS 中为每个 reducer 创建一个数据库,因此如果您希望将所有内容都放在一个文件中,则需要使用单个 reducer 运行或运行辅助步骤以将数据库合并在一起。

关于hadoop - pig : Perform task on completion of UDF,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15563125/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com