java - 互操作 : sharing Datasets of objects or Row between Java and Scala, 两种方式。我将 Scala 数据集操作放在 Java 的中间-6ren

java - 互操作 : sharing Datasets of objects or Row between Java and Scala, 两种方式。我将 Scala 数据集操作放在 Java 的中间

转载作者：行者123 更新时间：2023-12-04 15:17:37

25

4

目前，我的主要应用程序是使用 Java Spring-boot 构建的，这不会改变，因为它很方便。
@Autowired服务 bean 实现，例如:

Enterprise 和 establishment 数据集。第一个还能够返回具有 Map 的 Enterprise 对象列表。他们的机构。
所以服务返回:Dataset<Enterprise> , Dataset<Establishment> , Dataset<Row>
协会:Dataset<Row>
城市:Dataset<Commune>或 Dataset<Row> ,
地方当局:Datatset<Row> .

许多用户案例函数都是这种调用:

What are associations(year=2020) ?

我的申请转发到datasetAssociation(2020)与企业和机构数据集以及城市和地方当局的数据集一起运作，以提供有用的结果。

许多人推荐我从 Scala 能力中受益

为此，我正在考虑涉及数据集之间其他操作的操作:

一些由 Row 制成，
一些携带具体物体。

根据达到/涉及的数据集，我有这个操作要做:
协会。enterprises.establishments.cities.localautorities

我可以在 Scala 中写出粗体部分吗？这意味着:

A Dataset<Row>使用 Java 构建的代码被发送到 Scala 函数以完成。
Scala 使用 Enterprise 创建一个新数据集和 Establishment对象。
a) 如果对象的源代码是用 Scala 编写的，我不必在 Java 中为它重新创建一个新的源代码。
b) 相反，如果对象的源代码是用 Java 编写的，我就不必在 Scala 中重新创建一个新的源代码。
c) 我可以在 Java 端直接使用此数据集返回的 Scala 对象。
Scala 将必须调用在 Java 中实现的函数，并将其正在创建的基础数据集发送给它们(例如用城市信息完成它们)。

Java 随时调用 Scala 方法
Scala 也随时调用 Java 方法:
一个操作可以跟随一个
Java -> Scala -> Scala -> Java -> Scala -> Java -> Java
路径(如果需要)，以调用方法的本地语言表示。
因为我事先不知道哪些部分对移植到 Scala 有用。

完成这三点后，我将认为 Java 和 Scala 能够以两种方式互操作并从另一种方式中受益。

但我可以实现这个目标吗(在 Spark 2.4.x 或更可能在 Spark 3.0.0 中)？

总结一下，Java 和 Scala 是否可以通过两种方式互操作，一种方式:

它不会使源代码在一方面或另一方面过于笨拙。或者最糟糕的是:重复。
它不会显着降低性能(例如，必须重新创建整个数据集或转换它包含的每个对象，无论是一侧还是另一侧，都是令人望而却步的)。

最佳答案

正如 Jasper-M 所写，scala 和 java 代码可以完美地互操作:

它们都编译成 .class 文件，由 jvm 以相同的方式执行
spark java 和 scala API 一起工作，有几个细节:
- 两者使用相同的 Dataset 类，所以没有问题
- 但是 SparkContext 和 RDD(以及所有 RDD 变体)具有在 java 中不实用的 scala api。主要是因为 scala 方法将 scala 类型作为输入，而不是您在 java 中使用的类型。但是它们都有 java 包装器(JavaSparkContext、JavaRDD)。在 Java 中编码，您可能已经见过那些包装器。

现在，正如很多人所推荐的那样，spark首先是一个scala库，scala语言比java(*)更强大，用scala写spark代码会容易很多。此外，您会在 scala 中找到更多的代码示例。通常很难找到用于复杂数据集操作的 Java 代码示例。

因此，我认为您应该注意的两个主要问题是:

(与 spark 无关，但有必要)有一个编译这两种语言并允许双向互操作性的项目。我认为 sbt 提供了开箱即用的功能，对于 maven，您需要使用 scala 插件，并且(根据我的经验)将 java 和 scala 文件都放在 java 文件夹中。否则一个可以调用另一个，反之不行(scala调用java但java不能调用scala，反之亦然)
您应该注意每次创建类型化数据集时使用的编码器(即 Dataset[YourClass] 而不是 Dataset<Row> )。在 Java 中，对于 Java 模型类，您需要使用 Encoders.bean(YourClass.class)明确地。但在 scala 中，默认情况下 spark 会隐式找到编码器，并且编码器是为 scala 案例类(“产品类型”)和 scala 标准集合构建的。所以请注意使用了哪些编码器。例如，如果您在 Scala 中创建 YourJavaClass 的数据集，我认为您可能必须明确给出 Encoders.bean(YourJavaClass.class)让它工作并且没有序列化问题。

最后一点:您写道您使用 java Spring-boot。所以

请注意，Spring 设计完全违背了 scala/functional 推荐的做法。到处使用 null 和可变的东西。你仍然可以使用 Spring，但它在 scala 中可能会很奇怪，社区可能不会轻易接受它。
您可以从 spring 上下文调用 spark 代码，但不应使用 spark 中的 spring(上下文)，尤其是在 spark 分发的方法内部，例如 rdd.map .这将尝试在每个 worker 中创建 Spring 上下文，这非常慢并且很容易失败。

(*) 关于“scala 比 java 更强大”:我并不是说 scala 比 java 好(好吧，我确实这么认为，但这是一个品味问题:)。我的意思是 scala 语言比 java 提供了更多的表现力。基本上它用更少的代码做更多的事情。主要区别是:

隐式，被 spark api 大量使用
monad + for-comprehension
当然还有强大的类型系统(阅读协变类型，例如，List[Dog] 在 scala 中是 List[Animal] 的子类，但在 java 中不是)

关于java - 互操作 : sharing Datasets of objects or Row between Java and Scala, 两种方式。我将 Scala 数据集操作放在 Java 的中间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64016506/

25

4

0

文章推荐： java - API>=19 如何获取屏幕中间

文章推荐： python - 从列表中调用一个类

文章推荐： sql - 如何在 PostgreSQL 中获取前一个工作日？

java - Java 方法如何检索属于该特定方法的方法对象？ ( java )
我正在编写一个具有以下签名的 Java 方法。 void Logger(Method method, Object[] args); 如果一个方法(例如 ABC() )调用此方法 Logger，它应该
java - (Java) Java 找不到我的图像文件
我是 Java 新手。我的问题是我的 Java 程序找不到我试图用作的图像文件一个 JButton。 (目前这段代码什么也没做，因为我只是得到了想要的外观第一的)。这是我的主课代码: packag
java - java Java 有手动垃圾回收吗？
好的，今天我在接受采访，我已经编写 Java 代码多年了。采访中说“Java 垃圾收集是一个棘手的问题，我有几个 friend 一直在努力弄清楚。你在这方面做得怎么样？”。她是想骗我吗？还是我的一生都
java - Java 之谜 - Java
我的 friend 给了我一个谜语让我解开。它是这样的: There are 100 people. Each one of them, in his turn, does the following
java - Java 字节码是否兼容不同版本的 Java？
如果我将使用 Java 5 代码的应用程序编译成字节码，生成的 .class 文件是否能够在 Java 1.4 下运行？如果后者可以工作并且我正在尝试在我的 Java 1.4 应用程序中使用 Jav
java - Java 缺少无符号原始类型是 Java 平台的特征还是 Java 语言的特征？
有关于why Java doesn't support unsigned types的问题以及一些关于处理无符号类型的问题。我做了一些搜索，似乎 Scala 也不支持无符号数据类型。限制是Java和S
java - Java 7 的 Java 字节码可以在其他版本的 Java 中工作吗
我只是想知道在一个 java 版本中生成的字节码是否可以在其他 java 版本上运行最佳答案通常，字节码无需修改即可在较新版本的 Java 上运行。它不会在旧版本上运行，除非您使用特殊参数 (
java -cp 。 test.java 与 java test.java
我有一个关于在命令提示符下执行 java 程序的基本问题。在某些机器上我们需要指定 -cp 。 (类路径)同时执行java程序 (test为java文件名与.class文件存在于同一目录下) jav
java - 使用 Java (Java EE/Java SE) 的数据库应用程序设计模式
我已经阅读 StackOverflow 有一段时间了，现在我才鼓起勇气提出问题。我今年 20 岁，目前在我的家乡(罗马尼亚克卢日-纳波卡)就读 IT 大学。足以介绍:D。基本上，我有一家提供簿记应用
java - Java 中的解析可在 Java 中访问
我有 public JSONObject parseXML(String xml) { JSONObject jsonObject = XML.toJSONObject(xml); r
java - Java 中的解释性语言以及对 Java 方法的调用
我已经在 Java 中实现了带有动态类型的简单解释语言。不幸的是我遇到了以下问题。测试时如下代码: def main() { def ks = Map[[1, 2]].keySet()
java - java 序数 - Java I 类
一直提示输入 1 到 10 的数字 - 结果应将 st、rd、th 和 nd 添加到数字中。编写一个程序，提示用户输入 1 到 10 之间的任意整数，然后以序数形式显示该整数并附加后缀。 public
java - 如何从 Java 执行 Java？
我有这个 DownloadFile.java 并按预期下载该文件: import java.io.*; import java.net.URL; public class DownloadFile {
java - 延迟不适用于 java gui(java)
我想在 GUI 上添加延迟。我放置了 2 个 for 循环，然后重新绘制了一个标签，但这 2 个 for 循环一个接一个地执行，并且标签被重新绘制到最后一个。我能做什么？ for(int i=0;
java - Java 类中的硬编码 Java 列表
我正在对对象 Student 的列表项进行一些测试，但是我更喜欢在 java 类对象中创建硬编码列表，然后从那里提取数据，而不是连接到数据库并在结果集中选择记录。然而，自从我这样做以来已经很长时间了，
java - java 幕后对象创建(java 对象实例化)
我知道对象创建分为三个部分: 声明实例化初始化 classA{} classB extends classA{} classA obj = new classB(1,1); 实例化它必须使用
java - 车辆跟踪系统[java/Java EE]
我有兴趣使用 GPRS 构建车辆跟踪系统。但是，我有一些问题要问以前做过此操作的人: GPRS 是最好的技术吗？人们意识到任何问题吗？我计划使用 Java/Java EE - 有更好的技术吗？如果
java - 逆数组(Java)//逆数组(Java)
我可以通过递归方法反转数组，例如:数组={1,2,3,4,5} 数组结果={5,4,3,2,1}但我的结果是相同的数组，我不知道为什么，请帮助我。 public class Recursion { p
java - Java/Java EE 的构建和集成环境
有这样的标准方式吗？包括 Java源代码-测试代码- Ant 或 Maven联合单元持续集成(可能是巡航控制)ClearCase 版本控制工具部署到应用服务器最后我希望有一个自动构建和集成环境。
java - 我将如何从 java 程序打印文本？ ( java )
我什至不知道这是否可能，我非常怀疑它是否可能，但如果可以，您能告诉我怎么做吗？我只是想知道如何从打印机打印一些文本。有什么想法吗？最佳答案这里有更简单的事情。 import javax.swin

首页

博学

6Ren·AI

商城