scala - 在 Scala 中使用 Spark 数据集执行类型化联接-6ren

scala - 在 Scala 中使用 Spark 数据集执行类型化联接

转载作者：行者123 更新时间：2023-12-03 01:14:48

25

4

我喜欢 Spark 数据集，因为它们在编译时给我分析错误和语法错误，并且还允许我使用 getters 而不是硬编码的名称/数字。大多数计算可以使用 Dataset 的高级 API 来完成。例如，通过访问数据集类型对象来执行agg、select、sum、avg、map、filter或groupBy操作比使用RDD行的数据字段要简单得多。

但是其中缺少连接操作，我读到我可以像这样进行连接

ds1.joinWith(ds2, ds1.toDF().col("key") === ds2.toDF().col("key"), "inner")

但这不是我想要的，因为我更喜欢通过案例类接口(interface)来完成它，所以更像这样

ds1.joinWith(ds2, ds1.key === ds2.key, "inner")

目前最好的替代方案似乎是在案例类旁边创建一个对象，并提供此函数来为我提供正确的列名称作为字符串。因此，我将使用第一行代码，但放置一个函数而不是硬编码的列名称。但这感觉不够优雅..

有人可以在这里建议我其他选择吗？目标是从实际的列名中进行抽象，并最好通过案例类的 getter 来工作。

我正在使用 Spark 1.6.1 和 Scala 2.10

最佳答案

观察

仅当连接条件基于相等运算符时，Spark SQL 才能优化连接。这意味着我们可以分别考虑等值连接和非等值连接。

等值连接

等值连接可以通过将数据集映射到(键，值)元组，基于键执行连接并 reshape 结果，以类型安全的方式实现:

import org.apache.spark.sql.Encoder
import org.apache.spark.sql.Dataset

def safeEquiJoin[T, U, K](ds1: Dataset[T], ds2: Dataset[U])
    (f: T => K, g: U => K)
    (implicit e1: Encoder[(K, T)], e2: Encoder[(K, U)], e3: Encoder[(T, U)]) = {
  val ds1_ = ds1.map(x => (f(x), x))
  val ds2_ = ds2.map(x => (g(x), x))
  ds1_.joinWith(ds2_, ds1_("_1") === ds2_("_1")).map(x => (x._1._2, x._2._2))
}

非等值连接

可以使用关系代数运算符表示为 R ⋈θ S = σθ(R × S) 并直接转换为代码。

Spark 2.0

启用crossJoin并将joinWith与普通相等谓词一起使用:

spark.conf.set("spark.sql.crossJoin.enabled", true)

def safeNonEquiJoin[T, U](ds1: Dataset[T], ds2: Dataset[U])
                         (p: (T, U) => Boolean) = {
  ds1.joinWith(ds2, lit(true)).filter(p.tupled)
}

Spark 2.1

使用crossJoin方法:

def safeNonEquiJoin[T, U](ds1: Dataset[T], ds2: Dataset[U])
    (p: (T, U) => Boolean)
    (implicit e1: Encoder[Tuple1[T]], e2: Encoder[Tuple1[U]], e3: Encoder[(T, U)]) = {
  ds1.map(Tuple1(_)).crossJoin(ds2.map(Tuple1(_))).as[(T, U)].filter(p.tupled)
}

示例

case class LabeledPoint(label: String, x: Double, y: Double)
case class Category(id: Long, name: String)

val points1 = Seq(LabeledPoint("foo", 1.0, 2.0)).toDS
val points2 = Seq(
  LabeledPoint("bar", 3.0, 5.6), LabeledPoint("foo", -1.0, 3.0)
).toDS
val categories = Seq(Category(1, "foo"), Category(2, "bar")).toDS

safeEquiJoin(points1, categories)(_.label, _.name)
safeNonEquiJoin(points1, points2)(_.x > _.x)

注释

应该注意的是，这些方法在质量上与直接的 joinWith 应用程序不同，并且需要昂贵的 DeserializeToObject/SerializeFromObject 转换(与直接 joinWith 可以对数据使用逻辑操作相比)。
这类似于 Spark 2.0 Dataset vs DataFrame 中描述的行为.

如果您不限于 Spark SQL API frameless为数据集提供有趣的类型安全扩展(截至目前，它仅支持 Spark 2.0):

import frameless.TypedDataset

val typedPoints1 = TypedDataset.create(points1)
val typedPoints2 = TypedDataset.create(points2)

typedPoints1.join(typedPoints2, typedPoints1('x), typedPoints2('x))

Dataset API 在 1.6 中不稳定，因此我认为在那里使用它没有意义。
当然，这种设计和描述性名称不是必需的。您可以轻松地使用类型类将此方法隐式添加到 Dataset 中，并且与内置签名没有冲突，因此两者都可以调用 joinWith。

关于scala - 在 Scala 中使用 Spark 数据集执行类型化联接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40605167/

25

4

0

文章推荐： doctrine - Symfony2 在服务容器中使用 Doctrine

文章推荐： powershell - 在重新启动 SCVMM 时重命名计算机

文章推荐： elasticsearch - 在时间范围内弹性查找记录组中的文本

Svelte 中非标准窗口事件的 TypeScript 类型化
我在 vscode 中使用带有 TypeScript 的 Svelte，并且在 vscode 中安装了 Svelte 扩展。在我的 App.svelte 中有 // a bunch of co
go - 类型化 map 不支持索引
我想延长go-validator返回更好的类型: type Error map[string][]error // Will output the first error when stringifi
python - 根据名称和选项制作一个具有自动值的(类型化)python 枚举
在 python 中，您可以定义具有自动值的类型化枚举: import enum from enum import auto class Ordinals(enum.IntEnum): FIRST
racket - 类型化 Racket 中的自定义哈希集导致语法对象违反契约(Contract)
我有一个 custom set我想在打字 Racket 中使用它。一世要求它使用 require/typed与 #:opaque custom-set?操作说明。它工作，除了代码在运行时失败，当我
c# - 类型化 HttpClient 与 IHttpClientFactory
下面2种设置HttpClient的场景有什么区别吗？我应该更喜欢一个吗？输入客户端: public class CatalogService { private readonly Http
c# - 大小/类型化 SqlParameters 数组
我正在尝试创建一个 dbTyped 和大小的 SqlParameters 数组。这工作正常，但如果我需要另一列，则会导致更改两个地方的代码。 SqlParameter[] parameters = {
dart:如何在 iframe 中获取对文档对象的正确(类型化)引用
我有一个用例，其中复杂的 UI 层次结构需要在 iframe 中呈现，但处理它的逻辑(创建、输入文档、事件处理、退出文档)需要在主框架/应用程序中。我在获取对 iframe 的 Document 实
.net - 如何将 LinQ 加入(类型化)数据集？
我最近将 VS 2005 升级到了 2010 年，对 LinQ 还很陌生。也许有人可以把我放在正确的方式。背景 : 我有一个类型化数据集，并且使用 Table AccessRule 扩展了标准 SQ
python - 静态/动态作用域、类型化、绑定(bind)
我问这个只是为了澄清我的想法是否正确。静态/动态类型如果变量的类型在编译时已知，则语言是静态类型的。这实际上意味着您作为程序员必须指定每个变量的类型。示例:Java、C、C++。如果在运行时解释变
c# - WCF CultureInfo 类型化 DataMember 序列化 CommunicationException
当我使用 CultureInfo Typed DataMember 调用我的 WCF 服务的方法时，它抛出 CommunicationException。我该如何解决这个问题？ The InnerE
c# - 无法将 ListBox.ObjectCollection 转换为(类型化)数组
我想将项目转换为字符串数组或用于填充 ListBox.DataSource 的类型。该类型已覆盖 ToString()，但我似乎无法将其转换，甚至无法转换为 String[]。 String[] a
java - JPA:如何在设置参数后获取/打印(类型化)查询后面的 JPQL 查询字符串？
如何获取/打印(键入的)查询后面的 JPQL 查询字符串，即设置之后参数？ (例如，用于调试目的) 一个简单的 toString() 似乎并不能解决问题... 谢谢最佳答案没有“最终被翻译成最终
scala - 在 2.8.x 中的 Scala 中管理灵活、类型化、不可变的数据结构
这是 Scala 2.8.0 beta 对这个问题的跟进: What is a proper way to manage flexible, typed, immutable data structu

首页

博学

6Ren·AI

商城