gpt4 book ai didi

apache-spark - Apache Spark 中的 mapPartitions 和 foreachPartition 有什么区别

转载 作者:行者123 更新时间:2023-12-04 03:01:09 53 4
gpt4 key购买 nike

我有一个 DataFrame,其中一列有逗号分隔的数据。

例如:数据如下所示:[{value:1}, {value:2, value:3}, {some value}, {somevalue, othervalue}]

该列是字符串数据类型。我想将它转换为 List 并应用一些功能。现在我有一个函数可以将 String 列转换为 List 和其他应用逻辑。

但是哪个函数会更好和优化,因为我们有 2 个听起来相似的函数 ma​​pPartitionsforeachPartitions,它是否具有完全相同的性能以及在哪个中使用哪个?场景 ??

最佳答案

区别就跟map和foreach一样。在这里寻找好的解释 - Is there a difference between foreach and map? .

mapPartitions 和 foreachPartitions 是应用于 Dataframe 的每个 partition 而不是每个 element 的转换/操作。有关对比 map 和 map 分区的解释,请参见此处 - Apache Spark: map vs mapPartitions? .

根据您的描述,听起来您想要 map 或 foreach。

关于apache-spark - Apache Spark 中的 mapPartitions 和 foreachPartition 有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49142373/

53 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com