python - 从任务中调用 Java/Scala 函数-6ren

python - 从任务中调用 Java/Scala 函数

转载作者：IT老高更新时间：2023-10-28 21:47:46

30

4

背景

我最初的问题是 为什么在 map 函数中使用 DecisionTreeModel.predict 会引发异常？ 并且与 How to generate tuples of (original lable, predicted label) on Spark with MLlib? 相关

当我们使用 Scala API a recommended way使用 DecisionTreeModel 对 RDD[LabeledPoint] 进行预测的方法是简单地映射到 RDD:

val labelAndPreds = testData.map { point =>
  val prediction = model.predict(point.features)
  (point.label, prediction)
}

不幸的是，PySpark 中的类似方法效果不佳:

labelsAndPredictions = testData.map(
    lambda lp: (lp.label, model.predict(lp.features))
labelsAndPredictions.first()

Exception: It appears that you are attempting to reference SparkContext from a broadcast variable, action, or transforamtion. SparkContext can only be used on the driver, not in code that it run on workers. For more information, see SPARK-5063.

而不是 official documentation推荐这样的东西:

predictions = model.predict(testData.map(lambda x: x.features))
labelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions)

那么这里发生了什么？这里没有广播变量和Scala API predict 定义如下:

/**
 * Predict values for a single data point using the model trained.
 *
 * @param features array representing a single data point
 * @return Double prediction from the trained model
 */
def predict(features: Vector): Double = {
  topNode.predict(features)
}

/**
 * Predict values for the given data set using the model trained.
 *
 * @param features RDD representing data points to be predicted
 * @return RDD of predictions for each of the given data points
 */
def predict(features: RDD[Vector]): RDD[Double] = {
  features.map(x => predict(x))
}

所以至少乍一看，从 Action 或转换调用不是问题，因为预测似乎是一种本地操作。

说明

经过一番挖掘，我发现问题的根源是 JavaModelWrapper.call从 DecisionTreeModel.predict 调用的方法.它access SparkContext是调用Java函数所需要的:

callJavaFunc(self._sc, getattr(self._java_model, name), *a)

问题

在 DecisionTreeModel.predict 的情况下，有一个推荐的解决方法，并且所有必需的代码已经是 Scala API 的一部分，但是一般来说有什么优雅的方法来处理这样的问题吗？

目前只有我能想到的比较重量级的解决方案:

通过隐式转换扩展 Spark 类或添加某种包装器，将所有内容推送到 JVM
直接使用 Py4j 网关

最佳答案

使用默认 Py4J 网关进行通信是不可能的。要了解为什么我们必须查看 PySpark 内部文档 [1] 中的下图:

由于 Py4J 网关在驱动程序上运行，因此通过套接字与 JVM 工作人员通信的 Python 解释器无法访问它(参见示例 PythonRDD/rdd.py )。

理论上可以为每个工作人员创建一个单独的 Py4J 网关，但实际上它不太可能有用。忽略可靠性等问题 Py4J 根本不是为执行数据密集型任务而设计的。

有什么解决方法吗？

使用 Spark SQL Data Sources API包装 JVM 代码。
优点:受支持，高级别的，不需要访问内部 PySpark API
缺点:相对冗长且没有很好的文档记录，主要限于输入数据
使用 Scala UDF 对 DataFrame 进行操作。
优点:易于实现(参见 Spark: How to map Python with Scala or Java User Defined Functions?)，如果数据已存储在 DataFrame 中，则无需在 Python 和 Scala 之间进行数据转换，对 Py4J 的访问最少
缺点:需要访问 Py4J 网关和内部方法，仅限于 Spark SQL，难以调试，不支持
以类似于在 MLlib 中完成的方式创建高级 Scala 接口(interface)。
优点:灵活，能够执行任意复杂代码。它可以直接在 RDD 上使用(例如见 MLlib model wrappers )或与 DataFrames 一起使用(见 How to use a Scala class inside Pyspark )。后一种解决方案似乎更友好，因为所有 ser-de 细节都已由现有 API 处理。
缺点:低级，需要数据转换，和UDF一样需要访问Py4J和内部API，不支持
一些基本的例子可以在 Transforming PySpark RDD with Scala 中找到。
使用外部工作流管理工具在 Python 和 Scala/Java 作业之间切换并将数据传递到 DFS。
优点:易于实现，对代码本身的更改最少
缺点:读取/写入数据的成本(Alluxio？)
使用共享的 SQLContext(参见例如 Apache Zeppelin 或 Livy )使用已注册的临时表在 guest 语言之间传递数据。
优点:非常适合交互式分析
缺点:对于批处理作业(Zeppelin)来说不是很多，或者可能需要额外的编排(Livy)

约书亚·罗森。 (2014 年 8 月 4 日)PySpark Internals .取自 https://cwiki.apache.org/confluence/display/SPARK/PySpark+Internals

关于python - 从任务中调用 Java/Scala 函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31684842/

30

4

0

文章推荐： Android - 应用内购买 - 您需要将 BILLING 权限添加到您的 APK

文章推荐： c++ - 重定向 std::cout

文章推荐： android - 动态资源加载 Android

文章推荐： c++ - 如何从 Visual Studio 将标准输出重定向到输出窗口

Javascript AJAX 调用 Jquery 调用
为了让我的代码几乎完全用 Jquery 编写，我想用 Jquery 重写 AJAX 调用。这是从网页到 Tomcat servlet 的调用。我目前情况的类似代码: var http = new
Java 调用 C 调用 Java
我想使用 JNI 从 Java 调用 C 函数。在 C 函数中，我想创建一个 JVM 并调用一些 Java 对象。当我尝试创建 JVM 时，JNI_CreateJavaVM 返回 -1。所以，我想知
javascript - 调用 javascript 函数以从无法按预期工作的表单进行 AJAX 调用
环顾四周，我发现从 HTML 调用 Javascript 函数的最佳方法是将函数本身放在 HTML 中，而不是外部 Javascript 文件。所以我一直在网上四处寻找，找到了一些简短的教程，我可以根
ajax - 为什么我不能从 Angular 调用 ajax 调用
我有这个组件: import {Component} from 'angular2/core'; import {UserServices} from '../services/UserService
openssl - 如果客户端使用 BIO_* 调用，是否需要服务器上的 BIO_* 调用？
我正在尝试用 C 实现一个简单的 OpenSSL 客户端/服务器模型，并且对 BIO_* 调用的使用感到好奇，与原始 SSL_* 调用相比，它允许一些不错的功能。我对此比较陌生，所以我可能会完全错误
javascript - 根据先前的 Ajax 调用，根据用户确认执行 Ajax 调用
我正在处理有关异步调用的难题: 一个 JQuery 函数在用户点击时执行，然后调用一个 php 文件来检查用户输入是否与数据库中已有的信息重叠。如果是这样，则应提示用户确认是否要继续或取消，如果他单击
java - 验证私有(private)构造函数未使用 JMockit 调用/调用
我有以下类(class)。 public Task { public static Task getInstance(String taskName) { return new
c++ - 调用 QSound 调用，它们之间有延迟 Qt C++
嘿，我正在构建一个小游戏，我正在通过制作一个数字 vector 来创建关卡，该数字 vector 通过枚举与 1-4 种颜色相关联。问题是循环(在 Simon::loadChallenge 中)我将颜
Java 异步 api 调用 - 即发即忘 http 调用
我有一个java spring boot api(数据接收器)，客户端调用它来保存一些数据。一旦我完成了数据的持久化，我想进行另一个 api 调用(应该处理持久化的数据 - 数据聚合器)，它应该自行异
c# - 如何从 Paypal 调用 DoDirectPayment API 调用
首先，这涉及桌面应用程序而不是 ASP .Net 应用程序。我已经为我的项目添加了一个 Web 引用，并构建了各种数据对象，例如 PayerInfo、Address 和 CreditCard。但问题
f# - 如何从 FAKE 调用/调用 F# 编译器 fsc？
我如何告诉 FAKE 编译 .fs文件使用 fsc ? 解释如何传递参数的奖励积分，如 -a和 -target:dll . 编辑:我应该澄清一下，我正在尝试在没有 MSBuild/xbuild/.sl
javascript - render 没有被一个 api 调用，而是被另一个 api 调用
我使用下划线模板配置了一个简单的主干模型和 View 。两个单独的 API 使用完全相同的配置。 API 1 按预期工作。要重现该问题，请注释掉 API 1 的 URL，并取消注释 API 2 的
php - OOP 或 MySQL 调用。生成对象还是直接从 MySQL 调用？
我不确定什么是更好的做法或更现实的做法。我希望从头开始创建目录系统，但不确定最佳方法是什么。我想我在需要显示信息时使用对象，例如 info.php?id=100。有这样的代码用于显示 Game.cl
python - child 调用 parent ， parent 调用 child ......或不
from datetime import timedelta class A: def __abs__(self): return -self class B1(A):
java - 调用/调用 void 方法(Java 作业 - 生命游戏示例)
我在操作此生命游戏示例代码中的数组时遇到问题。情况: “生命游戏”是约翰·康威发明的一种细胞自动化技术。它由一个细胞网格组成，这些细胞可以根据数学规则生存/死亡/繁殖。该网格中的活细胞和死细胞通过
调用 read() 返回 0 但缓冲区已更改，调用 fread() 读取相同偏移量时不会发生
如果我像这样调用 read() 来读取文件: unsigned char buf[512]; memset(buf, 0, sizeof(unsigned char) * 512); int fd;
调用 "start"启动程序，调用 "stop"关闭 C 中的当前实例
我用 C 编写了一个简单的服务器，并希望调用它的功能与调用其他 C 守护程序的功能相同(例如使用 ./ftpd start 调用它并使用 ./ftpd stop 关闭该实例)。显然我遇到的问题是我不知
powershell - 可以从 cmd 调用 headless，但不能从 powershell 调用 headless
在 dos 中，当我粘贴此命令时它会起作用: "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" https://google.
powershell - 可以从 cmd 调用 headless，但不能从 powershell 调用 headless
在 dos 中，当我粘贴此命令时它会起作用: "C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" https://google.
python - 调用 python3 显示错误，调用 python 启动 python2.7
我希望能够从 cmd 在我的 Windows 10 计算机上调用 python3。我已重新安装 Python3.7 以确保选择“添加到路径”选项，但仍无法调用 python3 并使 CMD 启动 P

首页

博学

6Ren·AI

商城

python - 从任务中调用 Java/Scala 函数

背景

说明

问题