gpt4 book ai didi

java - 在 Java 中的 Apache Spark 中使用 Tuple3 时,combineByKey 的替代方案是什么?

转载 作者:行者123 更新时间:2023-12-02 12:04:10 24 4
gpt4 key购买 nike

我刚刚开始使用 Java 中的 Apache Spark。我目前正在做一个带有一些书籍数据的小型项目。我必须找到每个国家/地区最受欢迎的作者。

我有一个pairRDD,其中键是国家/地区,值是作者,如下所示

[(usa,C. S Lewis), (australia,Jason Shinder), (usa,Bernie S.), (usa,Bernie S.)]

我是否必须使用 Tuple3 添加一个字段并计算每个值出现的次数?如果是这样,我如何对 Tuple3 使用combineByKey?

我有另一个想法,我可以从pairRDD中获取所有 key ,并基于此,我可以过滤以使用另一个带有author_names的pairRDD以及它们每个被提及的次数,我可以找到最受欢迎的作者。但这感觉不是一个优雅的解决方案,因为我必须循环遍历键数组。帮助。

最佳答案

这实际上是YAW(又一个字数):

rdd.mapToPair(s -> new Tuple2<>(s, 1)).reduceByKey((c1, c2) -> c1 + c2);

关于java - 在 Java 中的 Apache Spark 中使用 Tuple3 时,combineByKey 的替代方案是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47034011/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com