apache-spark - spark sql中的有状态udfs，或者如何在spark sql中获得mapPartitions的性能优势？-6ren

apache-spark - spark sql中的有状态udfs，或者如何在spark sql中获得mapPartitions的性能优势？

转载作者：行者123 更新时间：2023-12-03 16:54:18

28

4

在转换导致创建或加载昂贵资源的情况下，在映射分区上使用映射可以显着提高性能(例如 - 对外部服务进行身份验证或创建数据库连接)。

mapPartition 允许我们每个分区初始化一次昂贵的资源，而标准映射是每行初始化一次。

但是如果我使用数据帧，我应用自定义转换的方式是通过指定用户定义的函数逐行操作 - 所以我失去了使用 mapPartitions 为每个块执行一次繁重工作的能力。

在 spark-sql/dataframe 中是否有解决方法？

更具体地说 :

我需要对一堆文档执行特征提取。我有一个输入文档并输出一个向量的函数。

计算本身涉及初始化与外部服务的连接。我不想或不需要为每个文档初始化它。这在规模上具有非平凡的开销。

最佳答案

一般来说，你有三个选择:

转换 DataFrame至 RDD并申请 mapPartitions直接地。由于您使用 Python udf您已经破坏了某些优化并支付 serde 成本并使用 RDD平均不会让它变得更糟。

懒惰 initialize required resources (另见 How to run a function on all Spark workers before processing data in PySpark? )。

如果数据可以使用 Arrow 进行序列化，请使用矢量化 pandas_udf (Spark 2.3 及更高版本)。不幸的是，您不能直接通过 VectorUDT 使用它，因此您必须展开向量并稍后折叠，因此这里的限制因素是向量的大小。此外，您必须小心控制分区的大小。

请注意，使用 UserDefinedFunctions可能需要 promoting objects to non-deterministic变种。

关于apache-spark - spark sql中的有状态udfs，或者如何在spark sql中获得mapPartitions的性能优势？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49558146/

28

4

0

文章推荐： performance - 如何在 Haskell 中优化数值库的速度

文章推荐： Haskell 优化 : how to stop list from performing allocations?

文章推荐： c - 带有 -Ofast 的 -DNDEBUG 比只有 -Ofast 慢

文章推荐： r - R中的非线性约束优化

scala - MapPartitions 上的垃圾收集问题
我目前有一个 mapPartitions 作业，它是 flatMapping 中的每个值迭代器，我遇到了一个问题，其中会产生主要的 GC 成本在某些处决上。一些执行者需要 20 分钟，其中 15 分钟
python - Spark MapPartitions
我正在使用 Spark 的 python api。我有一个大文本，我用 rdd = sc.loadtxt("file.txt") 加载。之后，我想对rdd进行mapPartitions转换。但是
apache-spark - mapPartitions 返回空数组
我有以下 RDD，它有 4 个分区:- val rdd=sc.parallelize(1 to 20,4) 现在我尝试在此调用 mapPartitions:- scala> rdd.mapPartit
java - Spark mapPartitions 迭代器返回重复记录
我有一个 FlatMapFunction>> 的实现类，String>。为每个分区初始化一些不可串行的连接。但是当我在迭代器上调用 next() 时，它为多个分区提供相同的记录。代码如下: @Over
scala - 为什么 mapPartitions 不向标准输出打印任何内容？
我在scala中有这个代码 object SimpleApp { def myf(x: Iterator[(String, Int)]): Iterator[(String, Int)] = {
python - Spark DataFrame mapPartitions
我需要在 Spark DataFrame 上进行分布式计算，在 DataFrame block 上调用一些任意(非 SQL)逻辑。我做了: def some_func(df_chunk): p
python - pyspark mapPartitions 函数是如何工作的？
所以我正在尝试使用 Python (Pyspark) 来学习 Spark。我想知道函数 mapPartitions 是如何工作的。这就是它需要的输入和它给出的输出。我在互联网上找不到任何合适的例子。可
python - 我可以在 pyspark mapPartitions 中使用多线程吗？
我可以在 pyspark mapPartitions 中使用多线程吗？我正在运行一个 spark 作业，我必须在其中对每一行进行 API 调用。我们正在使用 rdd map 运行 python 函数
scala - Spark : Using mapPartition with Scala
假设我有以下数据框: var randomData = Seq(("a",8),("h",5),("f",3),("a",2),("b",8),("c",3) val df = sc.parallel
java - mapPartitions 与 foreach 加累加器方法
在某些情况下，我可以使用mapPartitions或foreach方法获得相同的结果。例如，在典型的 MapReduce 方法中，我们会在将原始 RDD 转换为元组(键、值)集合的 mapParti
java - 如何在 Scala 中使用 mapPartitions？
我试图在 Scala 中使用 mapPartitions 但出现以下错误。 [error] found : Unit [error] required: Iterator[?] [error]
scala - Spark 斯卡拉 : mapPartitions in this use case
我阅读了很多有关 map 和 mapPartitions 之间差异的文章。我仍然有一些疑问。事情是在阅读之后我决定在我的代码中更改 mapPartitions 的 map 函数，因为显然 mapPar
performance - Apache Spark : map vs mapPartitions?
RDD's 之间有什么区别？ map 和 mapPartitions 方法？ flatMap 的行为类似于 map 还是 mapPartitions？谢谢。 (编辑)即之间有什么区别(语义上或执行方面
scala - 如何在 Spark Scala 中使用 mapPartitions？
我有 DocsRDD : RDD[String, String] val DocsRDD = sc.wholeTextFiles("myDirectory/*" , 2) DocsRDD: Doc1.
java - Spark RDD- map 与 mapPartitions
我通读了 map 和 mapPartitions 之间的理论差异，并且很清楚何时在各种情况下使用它们。但我下面描述的问题更多是基于 GC Activity 和内存 (RAM)。请阅读下面的问题:-
hadoop - Apache Flink : MapPartition Vs. 平面图
我对 MapPartition 没有搞清楚。请有人解释一下 Mappartition 的一些用例以及它与 FlatMap 有何不同？最佳答案区别在于方法的接口(interface)以及它们的调用方
java - 使用带迭代器的 mapPartition 保存 spark RDD
我有一些中间数据需要存储在 HDFS 和本地。我正在使用 Spark 1.6。在作为中间形式的 HDFS 中，我在 /output/testDummy/part-00000 和 /output/tes
java - 如何将参数传递给 Spark 中 mapPartitions 的用户定义函数？
在 Spark 中，您可以为 mapPartitions 使用用户定义的函数。现在我的问题是如何向它传递参数。例如，目前我有这样的东西，它使用 rdd.mapPartitions(userdefine
dictionary - Spark mapPartitions 与 transient 惰性 val
我想知道使用 Spark 有什么不同 mapPartitions功能与 transient 惰性值。由于每个分区基本上都在不同的节点上运行，因此将在每个节点上创建一个 transient 惰性 va
scala - 如何将 mapPartitions 的 Iterator[String] 结果写入一个文件？
我是 Spark 和 Scala 的新手，这就是为什么我很难通过它。我打算做的是使用 Spark 使用 Stanford CoreNLP 预处理我的数据。我知道我必须使用 mapPartitions

首页

博学

6Ren·AI

商城

apache-spark - spark sql中的有状态udfs，或者如何在spark sql中获得mapPartitions的性能优势？