gpt4 book ai didi

apache-spark - Spark JavaRDD 与 JavaPairRDD?

转载 作者:行者123 更新时间:2023-12-03 11:10:06 25 4
gpt4 key购买 nike

我是 Spark 的新手,我想了解这两个 JavaRDD 与 JavaPairRDD 之间的区别,以及如果我将 JavaRDD 转换为 JavaPairRDD,这个操作会有多繁重

JavaRDD<Tuple2<String, String>> myRdd // This is my JavaRDD

JavaPairRDD<String, String> pairRDD = JavaPairRDD.fromJavaRDD(myRdd);

最佳答案

有一个区别,因为一些操作(aggregateByKeygroupByKey 等)需要有一个Key 来分组,然后是一个值放入分组结果。 JavaPairRDD 用于向开发人员声明需要 KeyValue 的契约(Contract)。

常规 JavaRDD 可用于不需要显式 Key 字段的操作。这些操作是对任意元素类型的通用操作。

查看他们的 javadoc 以了解每个可用的功能。

JavaRDD

JavaPairRDD

此外,将一个转换为另一个应该很快。这将是一个狭窄的转换,因为每一行都转换为另一行,并且不需要通过网络发送数据。通常,您的性能主要取决于您执行的广泛转换,其中必须在节点之间发送数据以在同一工作人员上使用相同的键定位行。

关于apache-spark - Spark JavaRDD 与 JavaPairRDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53161456/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com