apache-spark - 我什么时候应该重新分区 RDD？-6ren

apache-spark - 我什么时候应该重新分区 RDD？

转载作者：行者123 更新时间：2023-12-03 09:28:54

24

4

我知道我可以repartition一个RDD来增加它的分区并使用coalesce来减少它的分区。在阅读不同的资源后，我对此有两个问题无法完全理解。

Spark 将在生成 RDD 时使用合理的默认值(每个块 1 个分区，在第一个版本中为 64MB，现在为 128MB)。但我也读到建议使用运行作业的内核数量的 2 或 3 倍。那么问题来了:

给定文件应该使用多少个分区？例如，假设我有一个 10GB 的 .parquet 文件，3 个 executor，每个都有 2 个内核和 3gb 内存。
我应该重新分区吗？我应该使用多少个分区？做出这种选择的更好方法是什么？

如果未提供分区，是否所有数据类型(即 .txt 、 .parquet 等)都默认重新分区？

最佳答案

Spark 可以为 RDD 的每个分区运行单个并发任务，最多可达集群中的内核总数。

例如 :

val rdd= sc.textFile ("file.txt", 5)

上面这行代码将创建一个名为 textFile 的 RDD，有 5 个分区。

假设您有一个具有 4 个核心的集群，并假设每个分区需要处理 5 分钟。对于上面有 5 个分区的 RDD，4 个分区进程将并行运行，因为有 4 个内核，当 4 个内核中的一个空闲时，第 5 个分区进程将在 5 分钟后处理。

整个处理将在 10 分钟内完成，在第 5 个分区过程中，资源(剩余 3 个内核)将保持空闲状态。

The best way to decide on the number of partitions in a RDD is to make the number of partitions equal to the number of cores in the cluster so that all the partitions will process in parallel and the resources will be utilized in an optimal way.

Question : Are all data types (ie .txt, .parquet, etc..) repartitioned by default if no partitioning is provided?

每个 rdd 都会有默认的分区数。
检查您可以使用 rdd.partitions.length在 rdd 创建之后。

为了以最佳方式使用现有集群资源并加快速度，我们必须考虑重新分区以确保所有核心都被利用，并且所有分区都有足够数量的均匀分布的记录。

为了更好地理解，还可以查看 https://jaceklaskowski.gitbooks.io/mastering-apache-spark/spark-rdd-partitions.html

注意:这没有固定的公式。他们中的大多数人遵循的一般约定是

(numOf executors * no of cores) * replicationfactor (which may be 2 or 3 times more )

关于apache-spark - 我什么时候应该重新分区 RDD？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45748190/

24

4

0

文章推荐： servicestack - WIFE 的服务栈支持

文章推荐： appcelerator - 钛 : Creating a view with dynamic height

文章推荐： digital-ocean - 从 gitlab-ci 部署 docker 容器到 digital ocean 水滴

文章推荐： react-native - 当我导航到另一个布局时视频仍在播放

python - Pyspark 通过 RDD 中的键从单个 RDD 到多个 RDD
我是 Pyspark 新手，我使用的是 Spark 2.0.2。我有一个名为 Test_RDD 的 RDD，其结构如下: U-Key || V1 || V2 || V3 || ----
python - 如何使用 PySpark 将一个 RDD 拆分为两个 RDD 并将结果保存为 RDD？
我正在寻找一种方法将一个 RDD 拆分为两个或多个 RDD，并将获得的结果保存为两个单独的 RDD。例如: rdd_test = sc.parallelize(range(50), 1) 我的代码:
scala - Spark 斯卡拉 : Filter RDD if the record of the RDD doesn't exist in another RDD
我有一个结构如下的RDD: ((user_id,item_id,rating)) 让我们将此 RDD 称为训练然后还有另一个具有相同结构的rdd: ((user_id,item_id,rating)
split - 如何在给定每个 RDD 的最大行数且不使用 ID 列的情况下将 RDD 拆分为多个(较小的)RDD
已经有人问过类似的问题。最相似的是这个: Spark: How to split an RDD[T]` into Seq[RDD[T]] and preserve the ordering 但是，我不
hadoop - 如何在 Spark 上运行 rdd.map 函数后获取 rdd(如何使用 rdd.insertInto)
我正在使用 spark 来处理数据。但是我不知道如何将新数据保存到Hive 我从 Hive 加载 rdd，然后运行 map 函数来清理数据。 result = myRdd.map(lambda x
scala - 如何在其他 RDD 映射方法中使用 RDD？
我有一个名为 index 的 rdd:RDD[(String, String)]，我想用 index 来处理我的文件。这是代码: val get = file.map({x => val tmp
scala - 根据一个 RDD 中的键过滤另一个 RDD
我有两个 RDD: **rdd1** id1 val1 id2 val2 **rdd2** id1 v1 id2 v2 id1 v3 id8 v7 id1 v4 id3 v5 id6 v6 我想过滤
scala - RDD 访问另一个 RDD 中的值
我有一个 RDD，需要从另一个 RDD 访问数据。但是，我总是收到任务不可序列化错误。我已经扩展了 Serialized 类，但它没有起作用。代码是: val oldError = rddOfRati
scala - RDD 访问另一个 RDD 中的值
我有一个 RDD，需要从另一个 RDD 访问数据。但是，我总是收到任务不可序列化错误。我已经扩展了 Serialized 类，但它没有起作用。代码是: val oldError = rddOfRati
scala - 将 RDD 拆分为没有重复值的 RDD
我有一个 RDD 对: (105,918) (105,757) (502,516) (105,137) (516,816) (350,502) 我想将它分成两个 RDD，这样第一个只有具有非重复值的对
scala - 如何将 RDD 中的每个元素与 RDD 中的每个其他元素进行比较？
我正在尝试使用 spark 执行 K 最近邻搜索。我有一个 RDD[Seq[Double]] 并且我打算返回一个 RDD[(Seq[Double],Seq[Seq[Double]])] 带有实际行和
scala - Spark : How to union a List to RDD
我是Spark和Scala语言的新手，并且希望将所有RDD合并到一个List中，如下所示(List to RDD): val data = for (item {
apache-spark - 参加 rdd 并保持 rdd
我找不到只参与 rdd 的方法. take看起来很有希望，但它返回 list而不是 rdd .我当然可以将其转换为 rdd ，但这似乎既浪费又丑陋。 my_rdd = sc.textFile("my
apache-spark - 如何将一个 RDD 拆分为两个或多个 RDD？
我正在寻找一种将 RDD 拆分为两个或更多 RDD 的方法。我见过的最接近的是 Scala Spark: Split collection into several RDD?这仍然是一个单一的 RDD
scala - 如何从 RDD 中创建 RDD 集合？
我有一个RDD[String]，wordRDD。我还有一个从字符串/单词创建 RDD[String] 的函数。我想为 wordRDD 中的每个字符串创建一个新的 RDD。以下是我的尝试: 1) 失败，
scala - Spark : How to transform a Seq of RDD into a RDD
我刚刚开始使用 Spark 和 Scala 我有一个包含多个文件的目录我使用成功加载它们 sc.wholeTextFiles(directory) 现在我想升一级。我实际上有一个目录，其中包含包含文
scala - 从另一个 RDD 中减去一个 RDD 无法正常工作
我想从另一个 RDD 中减去一个 RDD。我查看了文档，发现 subtract可以这样做。实际上，当我测试时 subtract , 最终的 RDD 保持不变，值不会被删除! 有没有其他功能可以做到这一
scala - 根据另一个 RDD 的第一个字段的值检索现有 RDD 的第二个字段的值
我在 HDFS 中有如下三个文件中的数据 EmployeeManagers.txt (EmpID,ManagerID) 1,5 2,4 3,4 4,6 5,6 EmployeeNames.txt (E
java - 当我调用 rdd.join(rdd) 时发生了什么
我正在开发一个应用程序，我需要对 RDD 中具有相同键的每对行执行计算，这是 RDD 结构: List>> dat2 = new ArrayList<>(); dat2.add(new Tuple2>
python - pyspark:根据另一个 RDD 的某些列过滤一个 RDD
我在 spark 集群中有两个文件，foo.csv 和 bar.csv，它们都有 4 列和完全相同的字段:时间、用户、url、类别。我想通过 bar.csv 的某些列过滤掉 foo.csv。最后，我

首页

博学

6Ren·AI

商城

apache-spark - 我什么时候应该重新分区 RDD？