scala - 为什么可变映射在 Spark 中的 UserDefinedAggregateFunction(UDAF) 中自动变为不可变-6ren

scala - 为什么可变映射在 Spark 中的 UserDefinedAggregateFunction(UDAF) 中自动变为不可变

转载作者：行者123 更新时间：2023-12-04 12:05:46

26

4

我试图在 Spark 中定义一个 UserDefinedAggregateFunction(UDAF)，它计算一个组列中每个唯一值的出现次数。

这是一个例子:
假设我有一个数据框 df像这样，

+----+----+
|col1|col2|
+----+----+
|   a|  a1|
|   a|  a1|
|   a|  a2|
|   b|  b1|
|   b|  b2|
|   b|  b3|
|   b|  b1|
|   b|  b1|
+----+----+

我将有一个 UDAF DistinctValues

val func = new DistinctValues

然后我将它应用到数据帧 df

val agg_value = df.groupBy("col1").agg(func(col("col2")).as("DV"))

我期待有这样的事情:

+----+--------------------------+
|col1|DV                        |
+----+--------------------------+
|   a|  Map(a1->2, a2->1)       |
|   b|  Map(b1->3, b2->1, b3->1)|
+----+--------------------------+

所以我想出了一个像这样的 UDAF，

import org.apache.spark.sql.expressions.MutableAggregationBuffer
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.DataType
import org.apache.spark.sql.types.ArrayType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.MapType
import org.apache.spark.sql.types.LongType
import Array._

class DistinctValues extends UserDefinedAggregateFunction {
  def inputSchema: org.apache.spark.sql.types.StructType = StructType(StructField("value", StringType) :: Nil)

  def bufferSchema: StructType = StructType(StructField("values", MapType(StringType, LongType))::Nil)

  def dataType: DataType =  MapType(StringType, LongType)
  def deterministic: Boolean = true

  def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = scala.collection.mutable.Map()
  }

  def update(buffer: MutableAggregationBuffer, input: Row) : Unit = {
    val str = input.getAs[String](0)
    var mp = buffer.getAs[scala.collection.mutable.Map[String, Long]](0)
    var c:Long = mp.getOrElse(str, 0)
    c = c + 1
    mp.put(str, c)
    buffer(0) = mp
  }

  def merge(buffer1: MutableAggregationBuffer, buffer2: Row) : Unit = {
    var mp1 = buffer1.getAs[scala.collection.mutable.Map[String, Long]](0)
    var mp2 = buffer2.getAs[scala.collection.mutable.Map[String, Long]](0)
    mp2 foreach {
        case (k ,v) => {
            var c:Long = mp1.getOrElse(k, 0)
            c = c + v
            mp1.put(k ,c)
        }
    }
    buffer1(0) = mp1
  }

  def evaluate(buffer: Row): Any = {
      buffer.getAs[scala.collection.mutable.Map[String, LongType]](0)
  }
}

然后我在我的数据框中有这个功能，

val func = new DistinctValues
val agg_values = df.groupBy("col1").agg(func(col("col2")).as("DV"))

它给出了这样的错误，

func: DistinctValues = $iwC$$iwC$DistinctValues@17f48a25
org.apache.spark.SparkException: Job aborted due to stage failure: Task 1 in stage 32.0 failed 4 times, most recent failure: Lost task 1.3 in stage 32.0 (TID 884, ip-172-31-22-166.ec2.internal): java.lang.ClassCastException: scala.collection.immutable.Map$EmptyMap$ cannot be cast to scala.collection.mutable.Map
at $iwC$$iwC$DistinctValues.update(<console>:39)
at org.apache.spark.sql.execution.aggregate.ScalaUDAF.update(udaf.scala:431)
at org.apache.spark.sql.execution.aggregate.AggregationIterator$$anonfun$12.apply(AggregationIterator.scala:187)
at org.apache.spark.sql.execution.aggregate.AggregationIterator$$anonfun$12.apply(AggregationIterator.scala:180)
at org.apache.spark.sql.execution.aggregate.SortBasedAggregationIterator.processCurrentSortedGroup(SortBasedAggregationIterator.scala:116)
at org.apache.spark.sql.execution.aggregate.SortBasedAggregationIterator.next(SortBasedAggregationIterator.scala:152)
at org.apache.spark.sql.execution.aggregate.SortBasedAggregationIterator.next(SortBasedAggregationIterator.scala:29)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
at scala.collection.Iterator$$anon$11.next(Iterator.scala:328)
at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:149)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)
at org.apache.spark.scheduler.Task.run(Task.scala:89)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)

它看起来像在 update(buffer: MutableAggregationBuffer, input: Row)方法，变量 buffer是 immutable.Map ，程序累把它投到 mutable.Map ,

但我用了 mutable.Map初始化 buffer initialize(buffer: MutableAggregationBuffer, input:Row) 中的变量方法。是否与传递给 update 的变量相同？方法？还有 buffer是 mutableAggregationBuffer ，所以它应该是可变的，对吧？

为什么我的 mutable.Map 变得不可变？有谁知道发生了什么？

我真的需要这个函数中的可变 Map 来完成任务。我知道有一种解决方法可以从不可变映射创建可变映射，然后更新它。但是我真的很想知道为什么在程序中可变的会自动转换为不可变的，这对我来说没有意义。

最佳答案

相信是MapType在您的 StructType . buffer因此持有 Map ，这将是不可变的。

您可以转换它，但为什么不让它保持不变并执行以下操作:

mp = mp + (k -> c)

添加一个条目到不可变 Map ?

下面的工作示例:

class DistinctValues extends UserDefinedAggregateFunction {
  def inputSchema: org.apache.spark.sql.types.StructType = StructType(StructField("_2", IntegerType) :: Nil)

  def bufferSchema: StructType = StructType(StructField("values", MapType(StringType, LongType))::Nil)

  def dataType: DataType =  MapType(StringType, LongType)
  def deterministic: Boolean = true

  def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = Map()
  }

  def update(buffer: MutableAggregationBuffer, input: Row) : Unit = {
    val str = input.getAs[String](0)
    var mp = buffer.getAs[Map[String, Long]](0)
    var c:Long = mp.getOrElse(str, 0)
    c = c + 1
    mp = mp  + (str -> c)
    buffer(0) = mp
  }

  def merge(buffer1: MutableAggregationBuffer, buffer2: Row) : Unit = {
    var mp1 = buffer1.getAs[Map[String, Long]](0)
    var mp2 = buffer2.getAs[Map[String, Long]](0)
    mp2 foreach {
        case (k ,v) => {
            var c:Long = mp1.getOrElse(k, 0)
            c = c + v
            mp1 = mp1 + (k -> c)
        }
    }
    buffer1(0) = mp1
  }

  def evaluate(buffer: Row): Any = {
      buffer.getAs[Map[String, LongType]](0)
  }
}

关于scala - 为什么可变映射在 Spark 中的 UserDefinedAggregateFunction(UDAF) 中自动变为不可变，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36629916/

26

4

0

文章推荐： error-handling - 在 defmacro 中指示错误的常规方法是什么？

文章推荐： R Shiny : how to change values in a reactiveValues object

文章推荐： elm - 在 Elm 中实现我自己的 toString 的正确方法是什么

f# - 类型定义中的“可变”
为什么禁用类型像 type t = A of int | B of string * mutable int 虽然允许此类类型: type t = A of int | B of string * i
Python 可变 NamedTuple
我正在寻找一种类似结构的数据结构，我可以从中创建多个实例并具有某种类型提示而不是不可变的。所以我有这样的东西: class ConnectionConfig(NamedTuple): nam
Swift:间接访问/可变
我需要转到引用的结构: class SearchKnot { var isWord : Bool = false var text : String = "" var to
javascript - 可变/词法环境
如sec 10.4.3中所述当控制进入执行时，执行以下步骤功能对象F（调用者）中包含的功能代码的上下文提供thisArg，而调用方提供argumentsList：如
iphone - 使用事件指示器和标签显示警报(可变)
i make a game that start display Activity indicator And activity indicator bottom display UiLable wi
Scala - 可变(var)方法参数引用
编辑:我在这里不断获得支持。只是为了记录，我认为这不再重要。自从我发布它以来我就不再需要它了。我想在 Scala 中执行以下操作... def save(srcPath: String, destP
hash - 可变 HashMap 键是一种危险的做法吗？
使用可变对象作为 Hashmap 键是一种不好的做法吗？当您尝试使用已修改足以更改其哈希码的键从 HashMap 中检索值时，会发生什么？例如，给定 class Key { int a; /
kotlin - Kotlin(可变)列表
如果您在Kotlin中访问List类型的Java值，则将获得(Mutable)List!类型。例如。: Java代码: public class Example { public stati
python - 可变 str 类扩展
我编写了 str 类(内置)的以下扩展，以便执行以下操作:假设我有字符串 "Ciao" ，通过做"Ciao" - "a"我想要的结果是字符串 "Cio" 。这是执行此操作的代码，并且运行良好: cla
hash - 可变 HashMap 键是一种危险的做法吗？
使用可变对象作为 Hashmap 键是一种不好的做法吗？当您尝试使用已修改足以更改其哈希码的键从 HashMap 中检索值时，会发生什么？例如，给定 class Key { int a; /
SQL 数据库规范化和外键实践(可变/空白键？)
我正在为我的公司设计一个数据库来管理商业贷款。每笔贷款都可以有担保人，可以是个人或公司，在借款业务失败时作为财务支持。我有 3 个表:Loan、Person 和 Company，它们存储明显的信息。
c# - 可变 F# 记录的二进制序列化
我使用二进制序列化从 C# 类中保存 F# 记录。一切正常: F#: type GameState = { LevelStatus : LevelStatus
java - 对齐系统输出中的双(可变)列
import javax.swing.JOptionPane; public class HW { public static void main(String[] args) { Strin
c++ - 可变 FlatBuffers ，性能损失？
使用 flatbuffer mutable 有多少性能损失？是否“正确”使用 FlatBuffers 来拥有一个应该可编辑的对象/结构(即游戏状态) 在我的示例中，我现在有以下类: class Ga
c++ - 可变 lambda 是否有自己的捕获值拷贝？
std::function create_function (args...) { int x = initial_value (args...); return [x] () mut
C++ - 如何在字符串中查找(可变)字符？
我需要在 for 循环中找到用户输入的字符。我通常会这样做如果(句子[i] == 'e') 但是因为在这里，'e' 将是一个单字母字符变量，我不知道如何获取要比较的值。我不能只输入 if (sent
rust - 可变 Vector 中引用的生命周期
我有一个这样的算法: let seed: Foo = ... let mut stack: Vec = Vec::new(); stack.push(&seed); while let Some(ne
for-loop - 如何循环特定(可变)次数？
这个问题可能看起来非常基础，但我很难弄清楚如何做。我有一个整数，我需要使用 for 循环来循环整数次。首先，我尝试了—— fn main() { let number = 10; // An
rust - 如何解构元组以使绑定(bind)可变？
如果我有以下结构: struct MyStruct { tuple: (i32, i32) }; 以及以下函数: // This will not compile fn function(&mut s
mysql - 可变 SQL 列默认值
我希望在每个 session 的基础上指定列的默认值。下面的脚本不起作用，但描述了我想如何使用它。我目前使用的是 MySQL 5.5.28，但如果需要可以升级。 CREATE TABLE my_tbl

首页

博学

6Ren·AI

商城

scala - 为什么可变映射在 Spark 中的 UserDefinedAggregateFunction(UDAF) 中自动变为不可变