scala - 创建一个映射来为 Spark Dataframe 的每一行调用 POJO-6ren

scala - 创建一个映射来为 Spark Dataframe 的每一行调用 POJO

转载作者：行者123 更新时间：2023-12-05 04:09:01

28

4

我在 R 中构建了一个 H2O 模型并保存了 POJO 代码。我想使用 POJO 在 hdfs 中对 Parquet 文件进行评分，但我不确定如何去做。我计划将 Parquet 文件读入 spark (scala/SparkR/PySpark) 并在那里对它们进行评分。以下是我在 H2O's documentation page. 上找到的摘录

"How do I run a POJO on a Spark Cluster?

The POJO provides just the math logic to do predictions, so you won’t find any Spark (or even H2O) specific code there. If you want to use the POJO to make predictions on a dataset in Spark, create a map to call the POJO for each row and save the result to a new column, row-by-row"

有没有人有我如何做到这一点的一些示例代码？我将不胜感激任何帮助。我主要使用 R 和 SparkR 编写代码，但不确定如何将 POJO“映射”到每一行。

提前致谢。

最佳答案

我刚刚发布了一个solution实际使用 DataFrame/Dataset。该帖子使用 Star Wars 数据集在 R 中构建模型，然后在 Spark 中的测试集上对 MOJO 进行评分。我将在此处粘贴唯一相关的部分:

使用 Spark(和 Scala)评分

您可以使用 spark-submit 或 spark-shell。如果使用 spark-submit，h2o-genmodel.jar 需要放在 spark 应用根目录下的 lib 文件夹下，以便在编译时添加为依赖项。以下代码假定您正在运行 spark-shell。为了使用 h2o-genmodel.jar，您需要在启动 spark-shell 时通过提供 --jar 标志附加 jar 文件。例如:

/usr/lib/spark/bin/spark-shell \
--conf spark.serializer="org.apache.spark.serializer.KryoSerializer" \
--conf spark.driver.memory="3g" \
--conf spark.executor.memory="10g" \
--conf spark.executor.instances=10 \
--conf spark.executor.cores=4 \
--jars /path/to/h2o-genmodel.jar

现在在 Spark shell 中，导入依赖项

import _root_.hex.genmodel.easy.{EasyPredictModelWrapper, RowData}
import _root_.hex.genmodel.MojoModel

使用数据框

val modelPath = "/path/to/zip/file"
val dataPath = "/path/to/test/data"

// Import data
val dfStarWars = spark.read.option("header", "true").csv(dataPath)
// Import MOJO model
val mojo = MojoModel.load(modelPath)
val easyModel = new EasyPredictModelWrapper(mojo)

// score
val dfScore = dfStarWars.map {
  x =>
    val r = new RowData
    r.put("height", x.getAs[String](1))
    r.put("mass", x.getAs[String](2))
    val score = easyModel.predictBinomial(r).classProbabilities
    (x.getAs[String](0), score(1))
}.toDF("name", "isHumanScore")

变量 score 是级别 0 和 1 的两个分数的列表。score(1) 是级别 1 的分数，即“人类”。默认情况下，map 函数返回具有未指定列名“_1”、“_2”等的 DataFrame。您可以通过调用 toDF 重命名列。

使用数据集

要使用数据集 API，我们只需创建两个案例类，一个用于输入数据，一个用于输出。

case class StarWars (
  name: String,
  height: String,
  mass: String,
  is_human: String
)

case class Score (
  name: String,
  isHumanScore: Double
)


// Dataset
val dtStarWars = dfStarWars.as[StarWars]
val dtScore = dtStarWars.map {
  x =>
    val r = new RowData
    r.put("height", x.height)
    r.put("mass", x.mass)
    val score = easyModel.predictBinomial(r).classProbabilities
    Score(x.name, score(1))
}

使用数据集，您可以通过直接调用 x.columnName 来获取列的值。请注意，列值的类型必须是字符串，因此如果它们是案例类中定义的其他类型，您可能需要手动转换它们。

关于scala - 创建一个映射来为 Spark Dataframe 的每一行调用 POJO，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46849368/

28

4

0

文章推荐： r - 如何在 R 中用因子值(如 y)做 ggplot barplot？

文章推荐： python - 如何根据 CPU 的限制处理多进程

文章推荐： c# - 获取存储过程返回值而不是受影响的行

文章推荐： amazon-web-services - 如何保护公开可用的 lambda 函数？

scala - Scala 可以在参数中允许自由类型参数吗(Scala 类型参数是一等公民吗？)？
我有一些 Scala 代码，它用两个不同版本的类型参数化函数做了一些漂亮的事情。我已经从我的应用程序中简化了很多，但最后我的代码充满了形式 w(f[Int],f[Double]) 的调用。哪里w()是
scala - Scala 脚本可以引用同一目录中其他未编译的 scala 代码吗？
如果我在同一目录中有两个单独的未编译的 scala 文件: // hello.scala object hello { def world() = println("hello world") }
scala - Spark Scala 获取类未找到 scala.Any
val schema = df.schema val x = df.flatMap(r => (0 until schema.length).map { idx => ((idx, r.g
scala - 错误 : scala: No 'scala-library*.jar' in Scala compiler library
环境: Play 2.3.0/Scala 2.11.1/IntelliJ 13.1 我使用 Typesafe Activator 1.2.1 用 Scala 2.11.1 创建一个新项目。项目创建好后
scala - 如何使我的 Scala jar 库中的类可以在 Scala 控制台和 Scala 脚本中访问？
我只是想知道如何使用我自己的类扩展 Scala 控制台和“脚本”运行程序，以便我可以通过使用实际的 Scala 语言与其通信来实际使用我的代码？我应将 jar 放在哪里，以便无需临时配置即可从每个 S
scala - ensime scala 错误(未找到类 scala.Array，未找到对象 scala)
我已经根据 README.md 文件安装了 ensime，但是，我在低级 ensime-server 缓冲区中出现以下错误: 信息: fatal error :scala.tools.nsc.Miss
scala - Scala 中的函数相等，是 Scala 中的函数对象吗？
我正在阅读《Scala 编程》一书。在书中，它说“一个函数文字被编译成一个类，当在运行时实例化时它是一个函数值”。并且它提到“函数值是对象，因此您可以根据需要将它们存储在变量中”。所以我尝试检查函数
scala - 如何在 Scala 原生应用程序中运行 Scala 测试？
我有 hello world scala native 应用程序，想对此应用程序运行小型 scala 测试我使用通常的测试命令，但它抛出异常: NativeMain.scala object Nati
scala - 从 Scala 编译器插件生成 Scala 代码树
有few resources在网络上，在编写与代码模式匹配的 Scala 编译器插件方面很有指导意义，但这些对生成代码(构建符号树)没有帮助。我应该从哪里开始弄清楚如何做到这一点？ (如果有比手动构建
scala - 使用仅适用于较旧 Scala 版本的 Scala 库
我是 Scala 的新手。但是，我用创建了一个中等大小的程序。斯卡拉 2.9.0 .现在我想使用一个仅适用于的开源库斯卡拉 2.7.7 . 是吗可能在我的 Scala 2.9.0 程序中使用这个
scala - Scala 酸洗是否适用于 Scala 2.11？
有没有办法在 Scala 2.11 中使用 scala-pickling？我在 sonatype 存储库中尝试了唯一的 scala-pickling_2.11 工件，但它似乎不起作用。我收到消息:
scala - 如何从 Scala 本身获取 Scala 版本？
这与命令行编译器选项无关。如何以编程方式获取代码内的 Scala 版本？或者，Eclipse Scala 插件 v2 在哪里存储 scalac 的路径？最佳答案这无需访问 scala-compi
scala - 避免 Scala 内存泄漏 - Scala 构造函数
我正在阅读《Scala 编程》一书，并在第 6 章中的类 Rational 实现中遇到了一些问题。这是我的 Rational 类的初始版本(基于本书) class Rational(numerato
scala - 是否有必要在新的 scala 项目中添加我的自定义 scala 库依赖项？
我是 Scala 新手，我正在尝试开发一个使用自定义库的小项目。我在库内创建了一个mysql连接池。这是我的库的build.sbt organization := "com.learn" name :
scala - 如何在编译 Scala 文件之前在 SBT Build.scala 中运行 Scala 代码？
我正在尝试运行一些 Scala 代码，只是暂时打印出“Hello”，但我希望在 SBT 项目中编译 Scala 代码之前运行 Scala 代码。我发现在 build.sbt 中有以下工作。 compi
scala - maven Scala 插件默认使用什么 Scala 版本？
Here链接到 maven Scala 插件使用。但没有提到它使用的究竟是什么 Scala 版本。我创建了具有以下配置的 Maven Scala 项目: org.scala-tools
scala - Scala 上的类型不匹配用于理解 : scala. concurrent.Future
我对 Scala 还很陌生，请多多包涵。我有一堆包裹在一个大数组中的 future 。 future 已经完成了查看几 TB 数据的辛勤工作，在我的应用程序结束时，我想总结上述 future 的所有结
scala - 带有 scala 宏的非 scala 源位置
我有一个 scala 宏，它依赖于通过包含其位置的静态字符串指定的任意 xml 文件。 def myMacro(path: String) = macro myMacroImpl def myMacr
scala - 缺少扩展函数的参数类型 (Scala)
这是我的功能: def sumOfSquaresOfOdd(in: Seq[Int]): Int = { in.filter(_%2==1).map(_*_).reduce(_+_) } 为什么我
scala - Scala 中两个时间戳之间的秒数差异
这个问题在这里已经有了答案: Calculating the difference between two Java date instances (45 个答案) 关闭 5 年前。所以我有一个这

首页

博学

6Ren·AI

商城