gpt4 book ai didi

UDAF 与 Spark 中聚合器的性能

转载 作者:行者123 更新时间:2023-12-05 07:41:22 25 4
gpt4 key购买 nike

我正在尝试在 Spark 中编写一些注重性能的代码,并想知道我是否应该编写 AggregatorUser-defined Aggregate Function (UDAF) 用于我在 Dataframe 上的汇总操作。

我无法在任何地方找到任何关于这些方法的速度以及您应该将其用于 spark 2.0+ 的数据。

最佳答案

你应该写一个 Aggregator 而不是 UserDefinedAggregateFunction 作为 UserDefinedAggregateFunction performs inefficient serialization/deserialization tasks for each row .将 UserDefinedAggregateFunction 重写为 Aggregator 可以将性能提高 25%-30% 到 100 倍,如 in pull request replacing UserDefinedAggregateFunction with Aggregator 所述

由于这些性能问题,UserDefinedAggregateFunction class has been deprecated in Spark 3.0

关于UDAF 与 Spark 中聚合器的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45356452/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com