java - Spark 2.2.0 API : Which one should i prefer Dataset with Groupby combined with aggregate or RDD with ReduceBykey-6ren

java - Spark 2.2.0 API : Which one should i prefer Dataset with Groupby combined with aggregate or RDD with ReduceBykey

转载作者：行者123 更新时间：2023-12-02 11:55:40

26

4

大家好，首先，根据标题，有人可能会说问题已经得到解答，但我的观点是比较ReduceBykey、GroupBykey 的性能，具体针对Dataset 和RDD API。我在许多帖子中看到，ReduceBykey 方法的性能比 GroupByKey 方法更有效，当然我同意这一点。尽管如此，我还是有点困惑，如果我们使用数据集或 RDD，我无法弄清楚这些方法的行为方式。每种情况应该使用哪一个？

我会尝试更具体，因此我将提供我的问题、解决方案以及工作代码，我正在等待您尽早提出改进建议。

+---+------------------+-----+
|id |Text1             |Text2|
+---+------------------+-----+
|1  |one,two,three     |one  |
|2  |four,one,five     |six  |
|3  |seven,nine,one,two|eight|
|4  |two,three,five    |five |
|5  |six,five,one      |seven|
+---+------------------+-----+

这里的重点是检查第三列是否包含在第二列的每一行中，然后收集它们的所有 ID。例如，第三列的单词“one”出现在ID为1,5,2,3的第二列的句子中。

+-----+------------+
|Text2|Set         |
+-----+------------+
|seven|[3]         |
|one  |[1, 5, 2, 3]|
|six  |[5]         |
|five |[5, 2, 4]   |
+-----+------------+

这是我的工作代码

List<Row> data = Arrays.asList(
                RowFactory.create(1, "one,two,three", "one"),
                RowFactory.create(2, "four,one,five", "six"),
                RowFactory.create(3, "seven,nine,one,two", "eight"),
                RowFactory.create(4, "two,three,five", "five"),
                RowFactory.create(5, "six,five,one", "seven")
        );

        StructType schema = new StructType(new StructField[]{
                new StructField("id", DataTypes.IntegerType, false, Metadata.empty()),
                new StructField("Text1", DataTypes.StringType, false, Metadata.empty()),
                new StructField("Text2", DataTypes.StringType, false, Metadata.empty())
        });

        Dataset<Row> df = spark.createDataFrame(data, schema);
        df.show(false);
        Dataset<Row> df1 = df.select("id", "Text1")
                .crossJoin(df.select("Text2"))
                .filter(col("Text1").contains(col("Text2")))
                .orderBy(col("Text2"));

        df1.show(false);

        Dataset<Row> df2 = df1
                .groupBy("Text2")
                .agg(collect_set(col("id")).as("Set"));

        df2.show(false);

我的问题分为 3 个子序列:

为了提高性能，我是否需要转换RDD中的数据集并使用ReduceBykey代替数据集groupby？
我应该使用哪一个？为什么？数据集或 RDD
如果您能提供一种更有效的替代解决方案(如果我的方法中存在的话)，我将不胜感激

最佳答案

TL;DR 两者都不好，但如果您使用 Dataset，请保留 Dataset。

如果与合适的函数一起使用，

Dataset.groupBy 的行为类似于 reduceByKey。不幸的是，如果重复项数量较少，collect_set 的行为与 groupByKey 非常相似。用reduceByKey重写它 won't change a thing .

i would be grateful if you could give an alternative solution that is more efficient if exists in my approach

您能做的最好的事情就是删除crossJoin:

val df = Seq((1, "one,two,three", "one"),
  (2, "four,one,five", "six"),
  (3, "seven,nine,one,two", "eight"),
  (4, "two,three,five", "five"),
  (5, "six,five,one", "seven")).toDF("id", "text1", "text2")

df.select(col("id"), explode(split(col("Text1"), ",")).alias("w"))
  .join(df.select(col("Text2").alias("w")), Seq("w"))
  .groupBy("w")
  .agg(collect_set(col("id")).as("Set")).show

+-----+------------+
|    w|         Set|
+-----+------------+
|seven|         [3]|
|  one|[1, 5, 2, 3]|
|  six|         [5]|
| five|   [5, 2, 4]|
+-----+------------+

关于java - Spark 2.2.0 API : Which one should i prefer Dataset with Groupby combined with aggregate or RDD with ReduceBykey，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47621626/

26

4

0

文章推荐： java - 从另一个 Fragment 更新 ViewPager 中的 TextView

文章推荐： java - Fragment 内的 DialogFragment 内的 RecyclerView

文章推荐： arrays - 在 VBA 中比较两个数组并添加行

文章推荐： spring - 使用 post 参数从 spring Controller 重定向

python - PySpark ReduceByKey
我一直试图让它工作一段时间，但每次都失败了。我有 2 个文件。有一个名字列表: Name1 Name2 Name3 Name4 另一个是与几年中一年中每一天的名称关联的值列表: ['0.1,0.2,0
PySpark reduceByKey 多个值
如果我有一个像这样的 K,V 对: (K, (v1, v2)) (K, (v3, v4)) 我怎样才能总结出我得到的值(k, (v1 + v3, v2 + v4)) ? 最佳答案 reduceByKe
performance - Spark 中的低性能 reduceByKey()
我正在 Spark 上编写一个程序，我只是通过键进行聚合。该程序非常简单。我的输入数据只有 2GB，在设置为 local[2] 的多核服务器(8 核，32GB RAM)上运行。那就是使用两个内核进行并
apache-spark - ReduceByKey 以字节数组为键
我想使用 RDD 对 Tuple2 ，但是byte[]内容相同的s被认为是不同的值，因为它们的引用值不同。我没有看到任何要传递给自定义比较器的东西。我可以转换 byte[]进入 String使用显式
scala - reduceByKey 不是成员(member)
嗨，我有代码只是从文档中获取字数。在生成输出之前，我还需要使用 map 来查找数据值。这是代码。 requests .filter(_.description.exists(_.leng
scala - reduceBykey Spark 维护秩序
我的输入数据集看起来像 id1, 10, v1 id2, 9, v2 id2, 34, v3 id1, 6, v4 id1, 12, v5 id2, 2, v6 我想要输出 id1; 6,v4 | 1
python - Pyspark reduceByKey 嵌套元组
我的问题类似于PySpark reduceByKey on multiple values但有一个关键的区别。我是 PySpark 的新手，所以我肯定错过了一些明显的东西。我有一个具有以下结构的 R
join - Spark 数据帧 reduceByKey
我正在使用 Spark 1.5/1.6，我想在 DataFrame 中执行 reduceByKey 操作，我不想将 df 转换为 rdd。每行看起来像，我有多个 id1 行。 id1, id2, s
java - Spark reduceByKey() 不会对最终总和进行洗牌
我有一个 RDD，其中包含某些对象的计数，然后我在其上应用 reduceByKey()，对所有元素求和(如字数统计示例中所示)。我已将 reduceByKey 转换的输出保存到文本文件中，并且获得了每
python - PySpark reducebykey 与字典
为什么 Spark 强制从元组列表构建 RDD，以防进行 reducebykey 转换？ reduce_rdd = sc.parallelize([{'k1': 1}, {'k2': 2}, {'k1
python - PySpark reduceByKey 只用一个键
我有一个这样的rdd // Structure List[Tuple(x1, x2, value), Tuple(x1, x2, value)] data = [('23', '98', 34), (
python - Pyspark reduceByKey 返回元组列表
我有一个像这样的 rdd: rdd = [((uid1), (product1, price1, date1)), ((uid1), (product2, price2, date2))
python - (PySpark) reduceByKey 后的嵌套列表
我确定这是非常简单的事情，但我没有找到与此相关的任何内容。我的代码很简单: ... stream = stream.map(mapper) stream = stream.reduceByKey(r
scala - 使用 ReduceByKey 对值列表进行分组
我想对每个键的值列表进行分组，并且正在做这样的事情: sc.parallelize(Array(("red", "zero"), ("yellow", "one"), ("red", "two")))
scala - reduceByKey 以 case 类实例为键
我正在使用 Spark 版本 2.4.7-amzn-1 和 Scala 版本 2.11.12(OpenJDK 64 位服务器虚拟机，Java 1.8.0_302)开发 AWS EMR。我想通过键减少
scala - reduceByKey 使用 Scala 对象作为键
我正在将 spark 与 scala 一起使用，并且我有一个充满 tuple2 的 RDD，其中包含一个复杂对象作为键和一个 double 对象。如果对象相同，则目的是添加双倍(频率)。为此，我将我
vector - Spark : value reduceByKey is not a member
在对一些稀疏向量进行聚类后，我需要在每个聚类中找到相交向量。为此，我尝试减少 MLlib 向量，如下例所示: import org.apache.spark.SparkConf import org.
scala - reduceByKey(_++ _) 是什么意思
最近我有一个场景将数据存储在 keyValue Pair 中，并遇到了一个函数 reduceByKey(_ ++ _) .这更多是速记语法。我无法理解这实际上意味着什么。例如:reduceBykey
apache-spark - reduceByKey 和 lambda
作为我学习过程的一部分，我正在研究现有的 Spark 代码，我遇到了以下代码: enPages.map(lambda x: x.split(" "))\ .map(lambda x:
scala - 在 Spark 数据集中滚动你自己的 reduceByKey
除了 RDDs 之外，我正在尝试学习更多地使用 DataFrames 和 DataSets。对于 RDD，我知道我可以做 someRDD.reduceByKey((x,y) => x + y) ，但我

首页

博学

6Ren·AI

商城

java - Spark 2.2.0 API : Which one should i prefer Dataset with Groupby combined with aggregate or RDD with ReduceBykey