scala - 如何定义DataFrame的分区？-6ren

scala - 如何定义DataFrame的分区？

转载作者：行者123 更新时间：2023-12-03 04:36:30

我已经开始在 Spark 1.4.0 中使用 Spark SQL 和 DataFrames。我想在 Scala 中的 DataFrames 上定义自定义分区器，但不知道如何执行此操作。

我正在使用的数据表之一包含一个交易列表，按帐户，类似于以下示例。

Account   Date       Type       Amount
1001    2014-04-01  Purchase    100.00
1001    2014-04-01  Purchase     50.00
1001    2014-04-05  Purchase     70.00
1001    2014-04-01  Payment    -150.00
1002    2014-04-01  Purchase     80.00
1002    2014-04-02  Purchase     22.00
1002    2014-04-04  Payment    -120.00
1002    2014-04-04  Purchase     60.00
1003    2014-04-02  Purchase    210.00
1003    2014-04-03  Purchase     15.00

至少在最初，大多数计算将发生在帐户内的交易之间。所以我希望对数据进行分区，以便一个帐户的所有事务都在同一个 Spark 分区中。

但我没有看到定义这一点的方法。 DataFrame 类有一个名为“repartition(Int)”的方法，您可以在其中指定要创建的分区数。但是我没有看到任何可用于为 DataFrame 定义自定义分区器的方法，例如可以为 RDD 指定的方法。

源数据存储在 Parquet 中。我确实看到在将 DataFrame 写入 Parquet 时，您可以指定要分区的列，所以大概我可以告诉 Parquet 按“帐户”列对其数据进行分区。但是可能有数百万个帐户，如果我正确理解 Parquet，它会为每个帐户创建一个不同的目录，因此这听起来不是一个合理的解决方案。

有没有办法让 Spark 对这个 DataFrame 进行分区，以便帐户的所有数据都在同一个分区中？

最佳答案

Spark >= 2.3.0

SPARK-22614公开范围分区。

val partitionedByRange = df.repartitionByRange(42, $"k")

partitionedByRange.explain
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k ASC NULLS FIRST], 42
// +- AnalysisBarrier Project [_1#2 AS k#5, _2#3 AS v#6]
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- Project [_1#2 AS k#5, _2#3 AS v#6]
//    +- LocalRelation [_1#2, _2#3]
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- LocalRelation [k#5, v#6]
// 
// == Physical Plan ==
// Exchange rangepartitioning(k#5 ASC NULLS FIRST, 42)
// +- LocalTableScan [k#5, v#6]

SPARK-22389在 Data Source API v2 中公开外部格式分区.

Spark >= 1.6.0

在 Spark >= 1.6 中，可以使用按列分区进行查询和缓存。见: SPARK-11410和 SPARK-4849使用 repartition方法:

val df = Seq(
  ("A", 1), ("B", 2), ("A", 3), ("C", 1)
).toDF("k", "v")

val partitioned = df.repartition($"k")
partitioned.explain

// scala> df.repartition($"k").explain(true)
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Physical Plan ==
// TungstenExchange hashpartitioning(k#7,200), None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- Scan PhysicalRDD[_1#5,_2#6]

不像 RDDs Spark Dataset (包括 Dataset[Row] 又名 DataFrame )目前无法使用自定义分区器。您通常可以通过创建人工分区列来解决这个问题，但它不会为您提供相同的灵活性。

Spark < 1.6.0:

您可以做的一件事是在创建 DataFrame 之前对输入数据进行预分区。

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
import org.apache.spark.HashPartitioner

val schema = StructType(Seq(
  StructField("x", StringType, false),
  StructField("y", LongType, false),
  StructField("z", DoubleType, false)
))

val rdd = sc.parallelize(Seq(
  Row("foo", 1L, 0.5), Row("bar", 0L, 0.0), Row("??", -1L, 2.0),
  Row("foo", -1L, 0.0), Row("??", 3L, 0.6), Row("bar", -3L, 0.99)
))

val partitioner = new HashPartitioner(5) 

val partitioned = rdd.map(r => (r.getString(0), r))
  .partitionBy(partitioner)
  .values

val df = sqlContext.createDataFrame(partitioned, schema)

自 DataFrame来自 RDD 的创作只需要一个简单的 map 阶段就应该保留现有的分区布局*:

assert(df.rdd.partitions == partitioned.partitions)

以相同的方式重新分区现有 DataFrame :

sqlContext.createDataFrame(
  df.rdd.map(r => (r.getInt(1), r)).partitionBy(partitioner).values,
  df.schema
)

所以看起来也不是没有可能。问题仍然是它是否有意义。我会争辩说，大多数时候它不会:

重新分区是一个昂贵的过程。在典型的场景中，大多数数据必须被序列化、混洗和反序列化。另一方面，可以从预分区数据中受益的操作数量相对较少，如果内部 API 没有设计为利用此属性，则会进一步受到限制。

在某些情况下加入，但它需要内部支持，

窗口函数调用匹配的分区器。同上，仅限于单个窗口定义。虽然它已经在内部进行了分区，因此预分区可能是多余的，

使用 GROUP BY 的简单聚合- 可以减少临时缓冲区**的内存占用，但总体成本要高得多。或多或少相当于 groupByKey.mapValues(_.reduce) (当前行为)vs reduceByKey (预分区)。在实践中不太可能有用。

使用 SqlContext.cacheTable 进行数据压缩.由于看起来它正在使用运行长度编码，因此应用 OrderedRDDFunctions.repartitionAndSortWithinPartitions可以提高压缩比。

性能高度依赖于 key 的分布。如果它有偏差，将导致资源利用率不理想。在最坏的情况下，根本不可能完成工作。

使用高级声明性 API 的一个重点是将自己与低级实现细节隔离开来。正如 @dwysakowicz 已经提到的和 @RomiKuntsman优化是 Catalyst Optimizer 的工作.这是一个非常复杂的野兽，我真的怀疑你可以轻松地改进它，而无需深入研究它的内部结构。

相关概念

使用 JDBC 源进行分区 :

JDBC 数据源支持 predicates argument .它可以按如下方式使用:

sqlContext.read.jdbc(url, table, Array("foo = 1", "foo = 3"), props)

它为每个谓词创建一个 JDBC 分区。请记住，如果使用单个谓词创建的集合不是不相交的，您将在结果表中看到重复项。

partitionBy DataFrameWriter 中的方法 :

Spark DataFrameWriter提供 partitionBy可用于在写入时“分区”数据的方法。它使用提供的一组列在写入时分离数据

val df = Seq(
  ("foo", 1.0), ("bar", 2.0), ("foo", 1.5), ("bar", 2.6)
).toDF("k", "v")

df.write.partitionBy("k").json("/tmp/foo.json")

这使得基于键的查询的谓词下推读取:

val df1 = sqlContext.read.schema(df.schema).json("/tmp/foo.json")
df1.where($"k" === "bar")

但它不等同于 DataFrame.repartition .特别是像这样的聚合:

val cnts = df1.groupBy($"k").sum()

仍然需要 TungstenExchange :

cnts.explain

// == Physical Plan ==
// TungstenAggregate(key=[k#90], functions=[(sum(v#91),mode=Final,isDistinct=false)], output=[k#90,sum(v)#93])
// +- TungstenExchange hashpartitioning(k#90,200), None
//    +- TungstenAggregate(key=[k#90], functions=[(sum(v#91),mode=Partial,isDistinct=false)], output=[k#90,sum#99])
//       +- Scan JSONRelation[k#90,v#91] InputPaths: file:/tmp/foo.json

bucketBy DataFrameWriter 中的方法 ( Spark >= 2.0):
bucketBy与 partitionBy 有类似的应用但它仅适用于表 ( saveAsTable )。分桶信息可用于优化连接:

// Temporarily disable broadcast joins
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1)

df.write.bucketBy(42, "k").saveAsTable("df1")
val df2 = Seq(("A", -1.0), ("B", 2.0)).toDF("k", "v2")
df2.write.bucketBy(42, "k").saveAsTable("df2")

// == Physical Plan ==
// *Project [k#41, v#42, v2#47]
// +- *SortMergeJoin [k#41], [k#46], Inner
//    :- *Sort [k#41 ASC NULLS FIRST], false, 0
//    :  +- *Project [k#41, v#42]
//    :     +- *Filter isnotnull(k#41)
//    :        +- *FileScan parquet default.df1[k#41,v#42] Batched: true, Format: Parquet, Location: InMemoryFileIndex[file:/spark-warehouse/df1], PartitionFilters: [], PushedFilters: [IsNotNull(k)], ReadSchema: struct<k:string,v:int>
//    +- *Sort [k#46 ASC NULLS FIRST], false, 0
//       +- *Project [k#46, v2#47]
//          +- *Filter isnotnull(k#46)
//             +- *FileScan parquet default.df2[k#46,v2#47] Batched: true, Format: Parquet, Location: InMemoryFileIndex[file:/spark-warehouse/df2], PartitionFilters: [], PushedFilters: [IsNotNull(k)], ReadSchema: struct<k:string,v2:double>

* 我所说的分区布局仅指数据分布。 partitioned RDD 不再有分区器。
** 假设没有提前预测。如果聚合仅涵盖列的一小部分，则可能没有任何 yield 。

关于scala - 如何定义DataFrame的分区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30995699/

文章推荐： gulp - 使用 Gulp 来连接和 Uglify 文件

文章推荐： .net - 是否可以通过反射设置私有(private)属性？

文章推荐： intellij-idea - IntelliJ IDEA 提示方法参数

Neo4j 分区
是一种在 Neo4j 分区之间进行物理分离的方法吗？这意味着以下查询将转到 node1: Match (a:User:Facebook) 虽然此查询将转到另一个节点(可能托管在 docker 上)
非企业服务器上的 SQL 分区？
我尝试在我的 SQL 服务器上使用分区函数对我的一个大表进行分区，但我收到一条错误消息 “只能在SQL Server企业版中创建分区功能。只有SQL Server企业版支持分区。” 所以我想知道没有企
hadoop - hadoop中的文件拆分/分区
在hadoop文件系统中，我有两个文件，分别是X和Y。通常，hadoop制作的文件X和Y的大小为64 MB。是否可以强制hadoop划分两个文件，以便从X的32 MB和Y的32 MB中创建一个64 M
组合键的 Cassandra 分区
据我了解，如果我们有一个主键，则使用该键对数据进行分区并将其存储在节点中(例如使用随机分区器)。现在我不确定的是，如果我有多个键(又名复合键)，是用于分区数据的键的组合还是它将是第一个主键？例如，
SSAS 分区，多少太多了
我正在向我的 SSAS 多维数据集添加分区，我想知道是否有多个分区可以保留在下面？多少太多了，最佳实践限制是 20 还是 200？有没有人可以分享任何真实世界的知识？最佳答案这是 another
MySQL 分区 - 主键和唯一记录的错误
我有一个包含大约 200 万条记录的大表，我想对其进行分区。我将 id 列设置为 PRIMARY AUTO_INCRMENT int (并且它必须始终是唯一的)。我有一列“theyear”int(4
Mysql 分区 - 如何对包含唯一列的表进行列表分区？
我正在做 mysql 列表分区。我的表数据如下 ---------------------------------------- id | unique_token | city | student_
具有大量插入和删除的表的 MySQL 分区
我有一个表，我们每天在其中插入大约 2000 万个条目(没有任何限制的盲插入)。我们有两个外键，其中一个是对包含大约 1000 万个条目的表的引用 ID。我打算删除此表中超过一个月的所有数据，因为不
真实示例中的 MySQL 分区
我想在一款足球奇幻游戏中尝试使用 MySQL Partitioning，该游戏的用户分布在联赛中，每个联赛都有一个用户可以买卖球员的市场。当很多用户同时玩时，我在这张表中遇到了一些僵局(在撰写本文时大
带有变量的 jQuery 分区
我是 jQuery 的新手，想知道是否可以获取一些变量并将它们的除法作为 CSS 宽度。到目前为止我在这里: var x = $(".some-container").length; var y =
c++ - 分区、斯特林数和第一个切比雪夫多项式的递归函数
所以我正在做家庭作业，我需要为分区、斯特林数(第一类和第二类)和第一类的切比雪夫多项式创建递归函数。我的程序应该能够让用户输入一个正整数 n，然后创建名为 Partitions.txt、Stirlin
python - 分区(如果适用)
我在数据框中有一列，其中包含大约 1,4M 行聊天对话，其中每个单元格中的一般格式为 (1): “名称代理 : 对话” 但是，并非列中的所有单元格都采用这种格式。有些单元格只是 (2): “对话” 我
html - "Collapsible"<分区>
我在尝试隐藏 a 时遇到了一些问题，直到用户单击某个元素为止。 HTML 看起来像: BRAND item 1 item 2 item 3
【kafka】-分区-消费端负载均衡
一.为什么kafka要做分区？因为当一台机器有可能扛不住（类比：就像redis集群中的redis-cluster一样，一个master抗不住写，那么就多个master去抗写）
postgresql - 分区(和拆分)值以填充槽
我有一些销售数据，我需要发送存储在单独表中的可用槽中的数量。销售数据示例: id数量112131415369 create table sales (id serial primary key, q
GlusterFS - 为什么不推荐使用 root 分区？
我计划设置多个节点以使用 glusterfs 创建分布式复制卷我使用主(也是唯一)分区上的目录在两个节点上创建了一个 gluster 复制卷。 gluster volume create vol_d
sql - 在窗口函数内过滤(通过...分区)？
我正在尝试使用 sum() over (partition by) 但在总和中过滤。我的用例是将每个产品的 12 个月累计到一个月的条目，因此: ITEM MONTH SALES Item
scala - 如何从单个枚举器中生成多个枚举器(分区、拆分、..)
是否可以创建多个 Enumerators出单Enumerator ? 我正在寻找的相当于 List.partition返回 (List[A], List[A]) ，比如 List().partitio
Yocto - 创建并填充一个单独的/home 分区
我正在创建一个基于 x86 的非常简单的 Yocto 图像。我希望/文件系统是只读的，所以我设置了 IMAGE_FEATURES_append = " read-only-rootfs " 在原件的
list - Scala 分区/收集用法
是否可以使用一次 collect 调用来创建 2 个新列表？如果没有，我该如何使用分区来做到这一点？最佳答案 collect(在TraversableLike上定义并在所有子类中可用)与集合和Par

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

scala - 如何定义DataFrame的分区？