apache-spark - Spark 代码组织和最佳实践-6ren

apache-spark - Spark 代码组织和最佳实践

转载作者：行者123 更新时间：2023-12-03 05:32:55

26

4

关闭。这个问题是opinion-based .它目前不接受答案。

想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题.

3年前关闭。

Improve this question

因此，在面向对象的世界中度过了多年并始终考虑代码重用、设计模式和最佳实践，我发现自己在 Spark 世界中的代码组织和代码重用方面有些挣扎。

如果我尝试以可重用的方式编写代码，它几乎总是伴随着性能成本，我最终将其重写为最适合我的特定用例的任何代码。这种“为这个特定用例编写最佳内容”的常量也会影响代码组织，因为当“它们真的属于一起”时，将代码拆分为不同的对象或模块是很困难的，因此我最终得到的“上帝”对象很少包含长复杂的转换链。事实上，我经常认为，如果我在面向对象的世界中工作时查看了我现在编写的大部分 Spark 代码，我会畏缩并认为它是“意大利面条式代码”。

我在网上冲浪，试图找到某种与面向对象世界的最佳实践等效的方法，但运气不佳。我可以找到一些函数式编程的“最佳实践”，但 Spark 只是增加了一个额外的层，因为性能在这里是一个主要因素。

所以我要问你的问题是，你们中的任何一位 Spark 大师是否找到了一些可以推荐的编写 Spark 代码的最佳实践？

编辑

正如评论中所写，我实际上并不期望有人发布有关如何解决此问题的答案，而是希望这个社区中的某个人遇到了某种 Martin Fowler 类型的人，他在某处写过一些文章或博客文章关于如何解决 Spark 世界中的代码组织问题。

@DanielDarabos 建议我可以举一个代码组织和性能发生冲突的情况的例子。虽然我发现我在日常工作中经常遇到这个问题，但我发现将其归结为一个很好的最小示例有点困难；)但我会尝试。

在面向对象的世界里，我是单一职责原则的忠实粉丝，所以我会确保我的方法只负责一件事。它使它们可重复使用且易于测试。因此，如果我必须，例如，计算列表中某些数字的总和(匹配某些标准)并且我必须计算相同数字的平均值，我肯定会创建两种方法 - 一种计算总和，另一种计算总和计算平均值。像这样:

def main(implicit args: Array[String]): Unit = {
  val list = List(("DK", 1.2), ("DK", 1.4), ("SE", 1.5))

  println("Summed weights for DK = " + summedWeights(list, "DK")
  println("Averaged weights for DK = " + averagedWeights(list, "DK")
}

def summedWeights(list: List, country: String): Double = {
  list.filter(_._1 == country).map(_._2).sum
}

def averagedWeights(list: List, country: String): Double = {
  val filteredByCountry = list.filter(_._1 == country) 
  filteredByCountry.map(_._2).sum/ filteredByCountry.length
}

我当然可以继续在 Spark 中尊重 SRP:

def main(implicit args: Array[String]): Unit = {
  val df = List(("DK", 1.2), ("DK", 1.4), ("SE", 1.5)).toDF("country", "weight")

  println("Summed weights for DK = " + summedWeights(df, "DK")
  println("Averaged weights for DK = " + averagedWeights(df, "DK")
}


def avgWeights(df: DataFrame, country: String, sqlContext: SQLContext): Double = {
  import org.apache.spark.sql.functions._
  import sqlContext.implicits._

  val countrySpecific = df.filter('country === country)
  val summedWeight = countrySpecific.agg(avg('weight))

  summedWeight.first().getDouble(0)
}

def summedWeights(df: DataFrame, country: String, sqlContext: SQLContext): Double = {
  import org.apache.spark.sql.functions._
  import sqlContext.implicits._

  val countrySpecific = df.filter('country === country)
  val summedWeight = countrySpecific.agg(sum('weight))

  summedWeight.first().getDouble(0)
}

但是因为我的 df可能包含数十亿行我宁愿不必执行 filter两次。事实上，性能与 EMR 成本直接相关，所以我真的不想要那样。为了克服它，我因此决定违反 SRP 并简单地将两个函数合二为一，并确保我在国家过滤的 DataFrame 上调用 persist ，像这样:

def summedAndAveragedWeights(df: DataFrame, country: String, sqlContext: SQLContext): (Double, Double) = {
  import org.apache.spark.sql.functions._
  import sqlContext.implicits._

  val countrySpecific = df.filter('country === country).persist(StorageLevel.MEMORY_AND_DISK_SER)
  val summedWeights = countrySpecific.agg(sum('weight)).first().getDouble(0)
  val averagedWeights = summedWeights / countrySpecific.count()

  (summedWeights, averagedWeights)
}

现在，这个例子当然是对现实生活中遇到的事情的极大简化。在这里我可以简单地通过过滤和持久化来解决它 df在将它交给 sum 和 avg 函数之前(这也将是更多的 SRP)，但在现实生活中可能会有一些中间计算需要一次又一次地进行。换句话说， filter这里的函数只是试图为一些可以从持久化中受益的东西做一个简单的例子。事实上，我认为调用 persist是这里的关键字。调用 persist将大大加快我的工作速度，但代价是我必须将所有依赖于持久化 DataFrame 的代码紧密结合起来。 - 即使它们在逻辑上是分开的。

最佳答案

我想你可以订阅Apache Spark , databricks youtube上的 channel ，多听多了解，特别是从别人那里吸取经验教训。

Apache Spark

databricks

Spark Technology Center

这里推荐一些视频:

SparkUI Visualization

slide SparkUI Visualization

Spark in Production: Lessons from 100+ Production Users

slide Spark in Production: Lessons from 100+ Production Users

Spark Tuning for Enterprise System Administrators

Building, Debugging, and Tuning Spark Machine Learning Pipelines - Joseph Bradley (Databricks)

slide Building, Debugging, and Tuning Spark Machine Learning Pipelines

Top 5 Mistakes When Writing Spark Applications

slide Top 5 mistakes when writing Spark applications

Tuning and Debugging Apache Spark

slide Tuning and Debugging Apache Spark

A Deeper Understanding of Spark Internals - Aaron Davidson (Databricks)

slide A Deeper Understanding of Spark Internals - Aaron Davidson (Databricks)

我已经在我的 github 和博客上发布并仍在更新它:

github post

blog post

希望可以帮到你~

关于apache-spark - Spark 代码组织和最佳实践，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32777014/

26

4

0

文章推荐： pdf - 在哪里可以获得文档签名证书

文章推荐： .net - 如何在 ExecutionContext 中包含自己的数据

理论+实践，带你了解分布式训练
本文分享自华为云社区《大模型LLM之分布式训练》，作者：码上开花_Lancer。随着语言模型参数量和所需训练数据量的急速增长，单个机器上有限的资源已无法满足大语言模型训练的要求。需要设计分布式训
理论+实践，带你掌握动态规划法
本文分享自华为云社区《五大基础算法--动态规划法》，作者：大金（内蒙的）。一、基本概念动态规划法，和分治法极其相似。区别就是，在求解子问题时，会保存该子问题的解，后面的子问题求解时，可以直接拿来
python 调用scp命令实践
pip install scp pip install pexpect 测试代码： import os import stat import paramiko # 用于调用scp命令 def s
用于验证资源的 REST 实践
我目前正在实现“ token ”REST 服务。 token 只是一个字符串，由一些参数构建而成，然后经过哈希处理并在一定时间后过期。我想在我的 REST 服务中有一个可以验证 token 的端点，
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Azure 移动服务软删除问题/实践
打开软删除后，我在客户端上添加一条记录，推送，删除添加的记录推送，然后尝试使用与初始记录相同的主键添加新记录(然后推送)，我得到一个异常(exception)。 EntityDomainManager
Java XML 实践
我有一个应用程序，每 x 秒接收一次天气信息。我想将此数据保存到 XML 文件中。我应该为每个天气通知创建一个新的 XML 文件，还是将每个通知附加到同一个 XML 文件中？我不确定 XML 标准的
c# - 封装谓词的模式/实践
我猜我们大多数人都必须在某个时候处理这个问题，所以我想我会问这个问题。当您的 BLL 中有很多集合并且您发现自己一遍又一遍地编写相同的旧内联(匿名)谓词时，显然有必要进行封装，但实现封装的最佳方
正确的面向对象技术的 c# 实践
我有一些 c# 代码已经运行了一段时间了..我不得不说，虽然我了解 OO 原则的基础知识，但显然有不止一种方法可以给猫剥皮(尽管我讨厌那个短语!)。因此，我有一个基本抽象类作为基本数据服务类，如下所
持久化引用和删除引用对象的 SQL 实践
我设计了一个 SQL 数据库系统(使用 Postgre)，我有一个问题，即创建一个关系/引用的常见做法是什么，这种关系/引用即使在引用的对象被删除时也能持续存在。比如有一个UserORM，还有Act
Python Lambda 实践
我们的目标是搜索用户输入的字符串并计算在其中找到多少元音。不幸的是我被困在这里，有什么帮助吗？ def numVowels(s): vowels= "AEIOUaeiou" if s
c++ - 原地轮换C++实践
我有一个适用于我的“items”int 数组的旋转函数。下面的代码完成了它，除了我不必要地传输值。我正在努力实现“就地”轮换。我的意思是 ptrs 会递增或递减，而不是从数组中获取值。我需要通过这种方
ios - appDelegate 实践
我有一个 json 存储在我的应用程序文档文件夹中，我需要在我的所有 View 中使用它。我正在加载 json 并将其添加到每个 View 中的 NSMutableArray。但现在我了解到，我可以将
C++ 内存管理技术/实践
我用 C++ 开始了一个项目。这种语言的内存管理对我来说是新的。我过去常常使用 new () 创建对象，然后传递指针，虽然它可以工作，但调试起来很痛苦，人们看到代码时会用有趣的眼神看着我。我为它没有
c++ - 如何处理老年人糟糕的编码风格/实践？
已结束。这个问题是 off-topic .它目前不接受答案。想要改进这个问题？ Update the question所以它是on-topic堆栈溢出。关闭 10 年前。 Improve thi
oop - 初学者的松散耦合和 OO 实践
保持类松散耦合是编写易于理解、修改和调试的代码的一个重要方面——我明白这一点。然而，作为一个新手，几乎任何时候我都会超越我所苦苦挣扎的最简单的例子。我或多或少地了解如何将字符串、整数和简单数据类型封
php - Codeigniter MVC 实践
我发现我需要编写大量重复代码，因为我无法从其他 Controller 调用函数。例如，这里新闻提要内容在我的代码中重复，我对一个 Controller 做一些特定的事情，然后需要像这样加载我的新闻提要
f# - 在F#中实现约束数字类型的习语/实践？
假设需要一种数字数据类型，其允许值在指定范围内。更具体地说，假设要定义一个整数类型，其最小值为0，最大值为5000。这种情况在很多情况下都会出现，例如在对数据库数据类型，XSD数据类型进行建模时。在
javascript - 迭代整个数组的标准 JavaScript 实践？
假设我想循环整个数组来访问每个元素。使用 for 循环、for...in 循环或 for...of 循环是 JavaScript 开发人员的标准做法吗？例如: var myArray = ["app
Breeze 内存管理 - 模式/实践？
我有一个旧的 SL4/ria 应用程序，我希望用 Breeze 取代它。我有一个关于内存使用和缓存的问题。我的应用程序加载工作列表(一个典型的用户可以访问大约 1,000 个这些工作)。此外，还有很多

首页

博学

6Ren·AI

商城

apache-spark - Spark 代码组织和最佳实践