algorithm - 使用 scala 和 spark 扫描数据的更好方法-6ren

algorithm - 使用 scala 和 spark 扫描数据的更好方法

转载作者：塔克拉玛干更新时间：2023-11-03 05:17:11

25

4

问题

输入数据有两种类型的记录，我们称它们为R和 W .

我需要从上到下遍历 Sequence 中的这些数据，如果当前记录的类型是 W ，它必须与 map 合并(我们称之为 workMap )。如果映射中已经存在该 W 类型记录的键，则将此记录的值添加到其中，否则将在 workMap 中创建一个新条目。 .

如果当前记录的类型是R , workMap计算直到这条记录，附加到当前记录。

例如，如果这是记录的顺序 -

W1-   a -> 2
W2-   b -> 3
W3-   a -> 4
R1 
W4-   c -> 1
R2
W5-   c -> 4

其中 W1、W2、W3、W4 和 W5 的类型为 W ; R1 和 R2 的类型是 R

在这个函数的最后，我应该有以下 -

R1 - { a -> 6, 
       b -> 3 } //merged(W1, W2, W3)
R2 - { a -> 6, 
       b -> 3,
       c -> 1 } //merged(W1, W2, W3, W4)
{ a -> 6, 
  b -> 3,
  c -> 5 } //merged(W1, W2, W3, W4, W5)

我想要附加到中间的所有 R 型记录 workMap计算到那一点；最后的 workMap在处理完最后一条记录之后。

这是我写的代码-

def calcPerPartition(itr: Iterator[(InputKey, InputVal)]):
  Iterator[(ReportKey, ReportVal)] = {

    val workMap = mutable.HashMap.empty[WorkKey, WorkVal]
    val reportList = mutable.ArrayBuffer.empty[(ReportKey, Reportval)]

    while (itr.hasNext) {
      val temp = itr.next()
      val (iKey, iVal) = (temp._1, temp._2)

      if (iKey.recordType == reportType) {
       //creates a new (ReportKey, Reportval)
        reportList += getNewReportRecord(workMap, iKey, iVal) 
      }
      else {
        //if iKey is already present, merge the values 
        //other wise adds a new entry
        updateWorkMap(workMap, iKey, iVal) 
      }
    }
    val workList: Seq[(ReportKey, ReportVal)] = workMap.toList.map(convertToReport)

    reportList.iterator ++ workList.iterator
  }

ReportKey类是这样的 -

case class ReportKey (
                        // the type of record - report or work 
                        rType: Int, 
                        date: String, 
                      .....
                       )

我寻求帮助的这种方法有两个问题 -

我必须跟踪 reportList - R 的列表类型记录附有中间 workMap秒。随着数据的增长，reportList也长大了，我遇到了OutOfMemoryException秒。
我必须合并reportList和 workMap记录在相同的数据结构中，然后返回它们。如果有任何其他优雅的方式，我肯定会考虑改变这种设计。

为了完整起见——我使用的是 spark。函数 calcPerPartition作为参数传递给 RDD 上的 mapPartitions。我需要 workMap s 从每个分区稍后做一些额外的计算。

我知道如果我不必返回 workMap s 来自每个分区，问题就变得简单多了，像这样——

...
val workMap = mutable.HashMap.empty[WorkKey, WorkVal]                     
itr.scanLeft[Option[(ReportKey, Reportval)]](
  None)((acc: Option[(ReportKey, Reportval)], 
  curr: (InputKey, InputVal)) => {

  if (curr._1.recordType == reportType) {
    val rec = getNewReportRecord(workMap, curr._1, curr._2)
    Some(rec)
  }
  else {
    updateWorkMap(workMap, curr._1, curr._2)
    None
  }
})

val reportList = scan.filter(_.isDefined).map(_.get)
//workMap is still empty after the scanLeft. 
...

当然，我可以做 reduce对输入数据进行操作以得出最终的 workMap但我需要查看数据两次。考虑到输入数据集很大，我也想避免这种情况。

但不幸的是我需要 workMap在后面的步骤。

那么，有没有更好的方法来解决上面的问题呢？如果我根本无法解决问题 2(according to this)，有没有其他方法可以避免存储 R在列表中记录 ( reportList ) 或多次扫描数据？

最佳答案

对于第二个问题，我还没有更好的设计——如果你能避免将 reportList 和 workMap 组合成一个数据结构，但我们当然可以避免存储R 列表中的类型记录。

下面是我们如何重写上述问题中的 calcPerPartition -

def calcPerPartition(itr: Iterator[(InputKey, InputVal)]):
  Iterator[Option[(ReportKey, ReportVal)]] = {

    val workMap = mutable.HashMap.empty[WorkKey, WorkVal]
    var finalWorkMap = true

    new Iterator[Option[(ReportKey, ReportVal)]](){
        override def hasNext: Boolean = itr.hasNext

        override def next(): Option[(ReportKey, ReportVal)] = {
            val curr = itr.next()
            val iKey = curr._1
            val iVal = curr._2
            val eventKey = EventKey(openKey.date, openKey.symbol)

            if (iKey.recordType == reportType) {
              Some(getNewReportRecord(workMap, iKey, iVal))
            }
            else {
              //otherwise update the generic interest map but don't accumulate anything
              updateWorkMap(workMap, iKey, iVal)
              if (itr.hasNext) {
                next()
              }
              else {
                  if(finalWorkMap){
                    finalWorkMap = false //because we want a final only once
                    Some(workMap.map(convertToReport))
                  }
                  else {
                    None
                  }

              }
            }
        }
    }
  }

我们定义了一个迭代器，而不是将结果存储在列表中。这解决了我们围绕这个问题遇到的大部分内存问题。

关于algorithm - 使用 scala 和 spark 扫描数据的更好方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43011052/

25

4

0

文章推荐： java - Spring容器是如何创建的？

文章推荐： c - 段错误(核心已转储)C

文章推荐： java - 构建有向循环图的流畅界面？

文章推荐： python - 模式识别一维数据

scala - Scala 可以在参数中允许自由类型参数吗(Scala 类型参数是一等公民吗？)？
我有一些 Scala 代码，它用两个不同版本的类型参数化函数做了一些漂亮的事情。我已经从我的应用程序中简化了很多，但最后我的代码充满了形式 w(f[Int],f[Double]) 的调用。哪里w()是
scala - Scala 脚本可以引用同一目录中其他未编译的 scala 代码吗？
如果我在同一目录中有两个单独的未编译的 scala 文件: // hello.scala object hello { def world() = println("hello world") }
scala - Spark Scala 获取类未找到 scala.Any
val schema = df.schema val x = df.flatMap(r => (0 until schema.length).map { idx => ((idx, r.g
scala - 错误 : scala: No 'scala-library*.jar' in Scala compiler library
环境: Play 2.3.0/Scala 2.11.1/IntelliJ 13.1 我使用 Typesafe Activator 1.2.1 用 Scala 2.11.1 创建一个新项目。项目创建好后
scala - 如何使我的 Scala jar 库中的类可以在 Scala 控制台和 Scala 脚本中访问？
我只是想知道如何使用我自己的类扩展 Scala 控制台和“脚本”运行程序，以便我可以通过使用实际的 Scala 语言与其通信来实际使用我的代码？我应将 jar 放在哪里，以便无需临时配置即可从每个 S
scala - ensime scala 错误(未找到类 scala.Array，未找到对象 scala)
我已经根据 README.md 文件安装了 ensime，但是，我在低级 ensime-server 缓冲区中出现以下错误: 信息: fatal error :scala.tools.nsc.Miss
scala - Scala 中的函数相等，是 Scala 中的函数对象吗？
我正在阅读《Scala 编程》一书。在书中，它说“一个函数文字被编译成一个类，当在运行时实例化时它是一个函数值”。并且它提到“函数值是对象，因此您可以根据需要将它们存储在变量中”。所以我尝试检查函数
scala - 如何在 Scala 原生应用程序中运行 Scala 测试？
我有 hello world scala native 应用程序，想对此应用程序运行小型 scala 测试我使用通常的测试命令，但它抛出异常: NativeMain.scala object Nati
scala - 从 Scala 编译器插件生成 Scala 代码树
有few resources在网络上，在编写与代码模式匹配的 Scala 编译器插件方面很有指导意义，但这些对生成代码(构建符号树)没有帮助。我应该从哪里开始弄清楚如何做到这一点？ (如果有比手动构建
scala - 使用仅适用于较旧 Scala 版本的 Scala 库
我是 Scala 的新手。但是，我用创建了一个中等大小的程序。斯卡拉 2.9.0 .现在我想使用一个仅适用于的开源库斯卡拉 2.7.7 . 是吗可能在我的 Scala 2.9.0 程序中使用这个
scala - Scala 酸洗是否适用于 Scala 2.11？
有没有办法在 Scala 2.11 中使用 scala-pickling？我在 sonatype 存储库中尝试了唯一的 scala-pickling_2.11 工件，但它似乎不起作用。我收到消息:
scala - 如何从 Scala 本身获取 Scala 版本？
这与命令行编译器选项无关。如何以编程方式获取代码内的 Scala 版本？或者，Eclipse Scala 插件 v2 在哪里存储 scalac 的路径？最佳答案这无需访问 scala-compi
scala - 避免 Scala 内存泄漏 - Scala 构造函数
我正在阅读《Scala 编程》一书，并在第 6 章中的类 Rational 实现中遇到了一些问题。这是我的 Rational 类的初始版本(基于本书) class Rational(numerato
scala - 是否有必要在新的 scala 项目中添加我的自定义 scala 库依赖项？
我是 Scala 新手，我正在尝试开发一个使用自定义库的小项目。我在库内创建了一个mysql连接池。这是我的库的build.sbt organization := "com.learn" name :
scala - 如何在编译 Scala 文件之前在 SBT Build.scala 中运行 Scala 代码？
我正在尝试运行一些 Scala 代码，只是暂时打印出“Hello”，但我希望在 SBT 项目中编译 Scala 代码之前运行 Scala 代码。我发现在 build.sbt 中有以下工作。 compi
scala - maven Scala 插件默认使用什么 Scala 版本？
Here链接到 maven Scala 插件使用。但没有提到它使用的究竟是什么 Scala 版本。我创建了具有以下配置的 Maven Scala 项目: org.scala-tools
scala - Scala 上的类型不匹配用于理解 : scala. concurrent.Future
我对 Scala 还很陌生，请多多包涵。我有一堆包裹在一个大数组中的 future 。 future 已经完成了查看几 TB 数据的辛勤工作，在我的应用程序结束时，我想总结上述 future 的所有结
scala - 带有 scala 宏的非 scala 源位置
我有一个 scala 宏，它依赖于通过包含其位置的静态字符串指定的任意 xml 文件。 def myMacro(path: String) = macro myMacroImpl def myMacr
scala - 缺少扩展函数的参数类型 (Scala)
这是我的功能: def sumOfSquaresOfOdd(in: Seq[Int]): Int = { in.filter(_%2==1).map(_*_).reduce(_+_) } 为什么我
scala - Scala 中两个时间戳之间的秒数差异
这个问题在这里已经有了答案: Calculating the difference between two Java date instances (45 个答案) 关闭 5 年前。所以我有一个这

首页

博学

6Ren·AI

商城

algorithm - 使用 scala 和 spark 扫描数据的更好方法