- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
目前,我的主要应用程序是使用 Java Spring-boot 构建的,这不会改变,因为它很方便。
@Autowired
服务 bean 实现,例如:
Map
的 Enterprise 对象列表。他们的机构。Dataset<Enterprise>
, Dataset<Establishment>
, Dataset<Row>
Dataset<Row>
Dataset<Commune>
或 Dataset<Row>
,Datatset<Row>
.许多用户案例函数都是这种调用:
What are associations(year=2020) ?
我的申请转发到datasetAssociation(2020)
与企业和机构数据集以及城市和地方当局的数据集一起运作,以提供有用的结果。
为此,我正在考虑涉及数据集之间其他操作的操作:
根据达到/涉及的数据集,我有这个操作要做:
协会。enterprises.establishments.cities.localautorities
A Dataset<Row>
使用 Java 构建的代码被发送到 Scala 函数以完成。
Scala 使用 Enterprise
创建一个新数据集和 Establishment
对象。
a) 如果对象的源代码是用 Scala 编写的,我不必在 Java 中为它重新创建一个新的源代码。
b) 相反,如果对象的源代码是用 Java 编写的,我就不必在 Scala 中重新创建一个新的源代码。
c) 我可以在 Java 端直接使用此数据集返回的 Scala 对象。
Scala 将必须调用在 Java 中实现的函数,并将其正在创建的基础数据集发送给它们(例如用城市信息完成它们)。
Java 随时调用 Scala 方法
Scala 也随时调用 Java 方法:
一个操作可以跟随一个
Java -> Scala -> Scala -> Java -> Scala -> Java -> Java
路径(如果需要),以调用方法的本地语言表示。
因为我事先不知道哪些部分对移植到 Scala 有用。
完成这三点后,我将认为 Java 和 Scala 能够以两种方式互操作并从另一种方式中受益。
但我可以实现这个目标吗(在 Spark 2.4.x
或更可能在 Spark 3.0.0
中)?
最佳答案
正如 Jasper-M 所写,scala 和 java 代码可以完美地互操作:
现在,正如很多人所推荐的那样,spark首先是一个scala库,scala语言比java(*)更强大,用scala写spark代码会容易很多。此外,您会在 scala 中找到更多的代码示例。通常很难找到用于复杂数据集操作的 Java 代码示例。
因此,我认为您应该注意的两个主要问题是:
Dataset[YourClass]
而不是 Dataset<Row>
)。在 Java 中,对于 Java 模型类,您需要使用 Encoders.bean(YourClass.class)
明确地。但在 scala 中,默认情况下 spark 会隐式找到编码器,并且编码器是为 scala 案例类(“产品类型”)和 scala 标准集合构建的。所以请注意使用了哪些编码器。例如,如果您在 Scala 中创建 YourJavaClass 的数据集,我认为您可能必须明确给出 Encoders.bean(YourJavaClass.class)
让它工作并且没有序列化问题。最后一点:您写道您使用 java Spring-boot。所以
rdd.map
.这将尝试在每个 worker 中创建 Spring 上下文,这非常慢并且很容易失败。(*) 关于“scala 比 java 更强大”:我并不是说 scala 比 java 好(好吧,我确实这么认为,但这是一个品味问题:)。我的意思是 scala 语言比 java 提供了更多的表现力。基本上它用更少的代码做更多的事情。主要区别是:
关于java - 互操作 : sharing Datasets of objects or Row between Java and Scala, 两种方式。我将 Scala 数据集操作放在 Java 的中间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64016506/
如果我用 dataset.batch(n).prefetch(m), 将预提取m个批次或m个 sample ? 最佳答案 Dataset.prefetch(m) 转换预取其直接输入的m元素。在这种情况
根据 TensorFlow documentation 、tf.contrib.data.Dataset 类的 prefetch 和 map 方法,都有一个名为 buffer_size 的参数. 对于
我正在使用 Flink 0.10.1 的 DataSet API 编写应用程序。我可以在 Flink 中使用单个运算符获取多个收集器吗? 我想做的是如下所示: val lines = env.read
为了使用 Google Colabs TPU,我需要一个 tf.dataset.Dataset .那么如何在这样的数据集上使用数据增强? 更具体地说,到目前为止我的代码是: def get_datas
我有一个包含 2 个相关数据表(主数据表和详细信息)的数据集。我想将与我的过滤器匹配的数据(例如主数据列 A =“XXX”)复制到另一个数据集。 现在我发现这个过程需要很长时间(1k 条记录大约需要一
我正在使用 .pvd文件同时加载多个文件到 Paraviw。对于具有单个数据集的时间序列,该文件看起来像这样: 我想指定要与 a.*.vtu 一起加载的其他文件(
我听说 Google 主办(或将举办)一场网络分类竞赛,他们提供了一个大型(170k+ 文档)网站数据集,这些网站被分为多个类别(体育、计算机、科学等),我尝试环顾四周在他们的 2009 年到 201
谁能给我解释一下 DataSet.Copy() vs Dataset.Clone()也让我知道一些我们可以使用这些的场景 最佳答案 Clone 将创建一个新的空数据集,其架构(表和列)与旧数据集相同。
dataset = dataset.batch(50) dataset = dataset.prefetch(buffer_size=1) 是预取 1 个批次还是 1 个元素? 根据 tensorfl
在 Delphi 中,与 Dataset.Next 相比,使用 Dataset.Prior 是否会降低性能? 背景: 我有一个在数据集中搜索特定记录的例程。我从数据集中的最后一条记录开始,然后使用 D
我正在使用 Spark(2.0) 开发 Spark SQL,并使用 Java API 读取 CSV。 CSV 文件中有一个双引号、逗号分隔的列。例如:“Express Air,Delivery Tru
为什么要使用DataSet.BeginInit 和DataSet.EndInit? 我已经经历了official msdn documentation ,它说 Begins the initializ
我正在尝试向新的数据集 X 添加一个位于不同数据集 Y 中的数据表。如果我直接添加它,我会得到以下错误: DataTable already belongs to another DataSet. 我
我有一个表示为形状为 (num_features, num_examples) 的 NumPy 矩阵的数据集,我希望将其转换为 TensorFlow 类型 tf.Dataset。 我正在努力理解这两种
这是 question 的转发在 ai.stackexchange 中询问。由于该论坛没有太多吸引力,我想我可以在这里尝试一下机会。 我有一个特定对象的不同尺寸的图像数据集。该物体的一些图像也处于不同
我有两个数据集: main_ds = tf.data.Dataset.from_tensor_slices(list(range(1000, 1100))) backgroud_ds = tf.dat
拥有Dataset单列 json 字符串: +--------------------+ | value| +--------------------+ |{"Contex
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期,
我正在尝试解决 Azure 数据工厂中的以下场景: 我在 Azure Blob 存储中有大量文件夹。每个文件夹包含不同数量的 parquet 格式的文件。文件夹名称包含生成该文件夹中包含的数据的日期,
我有一个顺序数据集,我可以从中创建窗口来训练 RNN。在某些情况下,我想扔掉某些 window 。但是,当我使用 dataset.window 和 dataset.filter 时,管道内部会出现一些
我是一名优秀的程序员,十分优秀!