gpt4 book ai didi

apache-spark - 什么时候应该在 Spark 编程中使用 groupByKey API?

转载 作者:行者123 更新时间:2023-12-04 01:55:40 25 4
gpt4 key购买 nike

GroupByKey 受到数据混洗的影响。GroupByKey 功能可以通过使用 combineByKey 或 reduceByKey 来实现。那么什么时候应该使用这个 API?有什么用例吗?

最佳答案

combine 和 reduce 最终也会进行 shuffle,但是它们具有更好的内存和速度性能特性,因为它们能够在 shuffle 之前做更多的工作来减少数据量。

考虑是否必须按组 RDD[(group, num)] 对数字属性求和。 groupByKey会给你 RDD[(group, List[num])] 然后你可以手动减少使用 map .洗牌将需要移动所有个人 num s 到目标分区/节点以获取该列表 - 许多行被洗牌。

因为 reduceByKey知道您在用 num 做什么s(即对它们求和),它可以在洗牌之前对每个单独的分区求和 - 所以每个 group 最多只有一行被写出到 shuffle 分区/节点。

关于apache-spark - 什么时候应该在 Spark 编程中使用 groupByKey API?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30825936/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com