scala - scala 的 "collect"采用偏函数的 Spark 数据集等价物-6ren

scala - scala 的 "collect"采用偏函数的 Spark 数据集等价物

转载作者：行者123 更新时间：2023-12-04 22:28:47

25

4

常规 scala 集合有一个漂亮的 collect 方法，它让我可以使用偏函数一次性完成 filter-map 操作。 spark Dataset s 上是否有等效的操作？

我喜欢它有两个原因:

语法简单

它将 filter-map 样式的操作减少到单次传递(尽管在 spark 我猜有一些优化可以为您发现这些东西)

这是一个例子来说明我的意思。假设我有一个选项序列，我想提取并加倍定义的整数(在 Some 中的那些):

val input = Seq(Some(3), None, Some(-1), None, Some(4), Some(5))

方法 1 - collect

input.collect {
  case Some(value) => value * 2
} 
// List(6, -2, 8, 10)

collect 使这在语法上非常简洁，并执行一次。

方法 2 - filter-map

input.filter(_.isDefined).map(_.get * 2)

我可以将这种模式用于 spark，因为数据集和数据框有类似的方法。

但我不太喜欢这个，因为 isDefined 和 get 对我来说似乎是代码的味道。有一个隐含的假设 map 只接收 Some s。编译器无法验证这一点。在更大的示例中，开发人员更难发现该假设，并且开发人员可能会交换过滤器并进行映射，例如不会出现语法错误。

方法 3 - fold* 操作

input.foldRight[List[Int]](Nil) {
  case (nextOpt, acc) => nextOpt match {
    case Some(next) => next*2 :: acc
    case None => acc
  }
}

我没有使用足够的 Spark 来知道 fold 是否有等价物，所以这可能有点切线。

无论如何，模式匹配、折叠样板和列表的重建都混杂在一起，很难阅读。

所以总的来说，我发现 collect 语法最好，我希望 spark 有这样的东西。

最佳答案

collect 和 RDD 上定义的 Dataset 方法用于在驱动程序中实现数据。

尽管没有类似于 Collections API collect 方法的东西，但您的直觉是正确的:因为这两个操作都是惰性求值的，所以引擎有机会优化这些操作并将它们链接起来，以便它们以最大的局部性执行。

对于您特别提到的用例，我建议您考虑 flatMap ，它适用于 RDD 和 Dataset s:

// Assumes the usual spark-shell environment
// sc: SparkContext, spark: SparkSession
val collection = Seq(Some(1), None, Some(2), None, Some(3))
val rdd = sc.parallelize(collection)
val dataset = spark.createDataset(rdd)

// Both operations will yield `Array(2, 4, 6)`
rdd.flatMap(_.map(_ * 2)).collect
dataset.flatMap(_.map(_ * 2)).collect

// You can also express the operation in terms of a for-comprehension
(for (option <- rdd; n <- option) yield n * 2).collect
(for (option <- dataset; n <- option) yield n * 2).collect

// The same approach is valid for traditional collections as well
collection.flatMap(_.map(_ * 2))
for (option <- collection; n <- option) yield n * 2

编辑

正如在另一个问题中正确指出的那样， RDD s 实际上有 collect 方法，它通过应用偏函数来转换 RDD ，就像它在普通集合中发生的那样。然而，正如 Spark documentation 指出的那样，“只有在预期结果数组很小的情况下才应该使用这种方法，因为所有数据都加载到驱动程序的内存中。”

关于scala - scala 的 "collect"采用偏函数的 Spark 数据集等价物，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41848182/

25

4

0

文章推荐： julia-lang 检查任意嵌套数组的元素类型

文章推荐： oop - 依赖倒置原理及组成

文章推荐： Docker 远程 API 过滤器 : filter out network by name

VMWare 等价物
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
选择行的 Vimdiff 等价物
用作 mergetool for Git 时，vimdiff 中与 kdiff3 的“从 A/B/C 中选择行”等效的是什么？ kdiff3 中是否有类似 Ctrl+1/2/3 的快捷方式？最佳答案
元素中元素的 Javascript 等价物
什么是 Javascript 等同于 imgsrc = $("#content div form img").attr('src'); HTML 是
Java ip2long 等价物
您好，我有一个数据库可以从中选择 IP 位置> 脚本是在 php 中，我正在将它转换为 java，但我不知道什么是 ip2long('127.0.0.1' )); 在 java 中的等价物最佳答案
c# - short 等价物
我有一个 C# 应用程序，我正试图将其转换为 Java。 C# 应用程序有几个类型为 ushort 的变量。 Java 中是否有等效项？谢谢最佳答案在大小方面最接近的等价物是 char，因为 J
脉冲和等待线程的 iOS 等价物
我正在 iOS 中寻找与 .NET 中的脉冲和等待模式相同的多线程模式。本质上，我希望后台线程处于休眠状态，直到设置标志为止，这实际上是将线程“踢”到行动中。它是 loop+thread.sle
java - CountDownLatch 等价物
对于某些并发编程，我可以使用 Java 的 CountDownLatch概念。是否有 C++11 的等效项，或者该概念在 C++ 中称为什么？我想要的是在计数达到零时调用一个函数。如果还没有，我会
系统配置目录的 Windows 等价物
我正在用 Ruby 开发一个 CLI 应用程序，我想允许通过 /etc/appnamerc 的标准配置文件级联在 Unix 中进行配置。 , ~/.appnamerc .但是，该应用程序也意味着在 W
PHP JAXB 等价物
是否有与 JAXB 等效的 PHP？它被证明对 Java 开发非常有用，作为一个 PHP 新手，我想在 PHP 世界中使用 JAXB 提供的相同概念。最佳答案我之前也想找同样的东西，但是找不到。所
C++ urljoin 等价物
Python 有一个 urljoin 函数，它接受两个 URL 并智能地连接它们。有没有在c++中提供类似功能的库？ urljoin 文档:http://docs.python.org/library
这个函数的 Pythonic 等价物？
我有一个从另一种语言移植的功能，你能帮我把它变成“pythonic”吗？这里的函数以“非pythonic”方式移植(这是一个有点人为的例子 - 每个任务都与一个项目相关联或“无”，我们需要一个不同项
C# memcpy 等价物
我有 2 个相同类型的对象，我想将一种状态浅复制到另一种状态。在 C++ 中，我有很棒的 memcpy。我怎样才能在 C# 中做到这一点？ MemberwiseClone() 不够好，因为它创建并返回
"if"语句的 CSS 等价物
有什么方法可以在 CSS 中使用条件语句吗？最佳答案我想说 CSS 中最接近“IF”的是媒体查询，例如可用于响应式设计的媒体查询。对于媒体查询，您是在说“如果屏幕宽度在 440 像素到 660 像
Swift - IBOutletCollection 等价物
我正在尝试在 Swift 的 iTunesU 中从“为 iphone 和 ipad 开发 ios7 应用程序”中复制 Stanford Matchismo 游戏。第三讲77页slides ，它显示使
子进程中的python getoutput()等价物
这个问题在这里已经有了答案: Store output of subprocess.Popen call in a string [duplicate] (15 个回答) 关闭4年前。我想从 pyt
Python foreach 等价物
这个问题在这里已经有了答案: Is there a 'foreach' function in Python 3? (14 个回答) 关闭1年前。我正在深入研究 Python，但我有一个关于 for
Kotlin 密封类类型检测的 Java 等价物
我想从 Java 中的这个 Kotlin 类访问信息。它是通过 Gradle 库导入的。密封类: public sealed class Resource private constructor()
JPANEL 的 SWT 等价物
SWT 中的 JPanel 有什么等价物？最佳答案原始问题要求 SWT 等同于 JLabel。还有一个 org.eclipse.swt.custom.CLabel . SWT 等价于 JPane
MongoDB CREATE SCHEMA 等价物
在诸如 postgres 之类的 SQL 数据库中，我们可以创建 SCHEMA，以便我们可以将我们的表作为 schema_name.table_name 引用。 mongodb 中有模式吗？谢谢最佳
Pyspark 模型的 Python 等价物
哪个模型是“GBTRegressor”Pyspark 模型的 Python 等效模型？简要背景:我正在尝试将 pyspark 模型重新创建为 python 模型。现有管道中使用的模型是 GBTReg

首页

博学

6Ren·AI

商城

scala - scala 的 "collect"采用偏函数的 Spark 数据集等价物