pyspark - 与谓词下推相关的数据 block 分区-6ren

pyspark - 与谓词下推相关的数据 block 分区

转载作者：行者123 更新时间：2023-12-02 14:27:52

24

4

我已经搜索了很多简洁的答案，希望有人可以帮助我澄清数据 block 分区..

假设我有一个包含列的数据框:Year , Month , Day , SalesAmount , StoreNumber

我想按年和月进行分区存储..这样我就可以运行以下命令:

df.write.partitionBy('Year', 'Month').format('csv').save('/mnt/path/', header='true')

这将以以下格式输出数据:/path/Year=2019/Month=05/<file-0000x>.csv

如果我然后再次加载它，例如:

spark.read.format('csv').options(header='true').load('/mnt/path/').createOrReplaceTempView("temp1")

Q1:这还没有真正“读取”数据，对吗？即我可能有数十亿条记录..但直到我实际查询 temp1 ，没有针对源执行任何操作？

Q2-A:随后，当使用 temp1 查询此数据时，我的假设是，如果我在 where 子句中包含分区中使用的项目，则会对从磁盘读取的实际文件应用智能过滤？

%sql
select * from temp1 where Year = 2019 and Month = 05 -- OPTIMAL

而以下内容不会执行任何文件过滤，因为它没有要查找的分区的上下文:

%sql
select * from temp1 where StoreNum = 152 and SalesAmount > 10000 -- SUB-OPTIMAL

Q2-B:最后，如果我以 Parquet 格式(而不是 *.csv)存储文件..上面的两个查询都会“下推”到存储的实际数据中。 .但也许以不同的方式？

即第一个仍会使用分区，但第二个 ( where StoreNum = 152 and SalesAmount > 10000 ) 现在将使用 parquet 的列式存储？而 *.csv 没有这种优化？

任何人都可以澄清我对此的想法/理解吗？

资源链接也很棒..

最佳答案

A1:您对 createOrReplaceTempView 的评估是正确的。这将为当前 Spark session 延迟进行评估。换句话说，如果您终止 Spark session 而不访问它，则数据将永远不会传输到 temp1 中。

A2:让我们通过使用您的代码的示例来检查该案例。首先让我们保存您的数据:

df.write.mode("overwrite").option("header", "true")
  .partitionBy("Year", "Month")
  .format("csv")
  .save("/tmp/partition_test1/")

然后加载它:

val df1 = spark.read.option("header", "true")
                .csv("/tmp/partition_test1/")
                .where($"Year" === 2019 && $"Month" === 5)

执行df1.explain将返回:

== Physical Plan ==
*(1) FileScan csv [Day#328,SalesAmount#329,StoreNumber#330,Year#331,Month#332] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/tmp/partition_test1], PartitionCount: 0, Partition
Filters: [isnotnull(Year#331), isnotnull(Month#332), (Year#331 = 2019), (Month#332 = 5)], PushedFilters: [], ReadSchema: struct<Day:string,SalesAmount:string,StoreNumber:string>

正如您所看到的，PushedFilters: [] 数组为空，尽管 PartitionFilters[] 不是空的，这表明 Spark 能够对分区应用过滤，从而进行修剪不满足 where 语句的分区。

如果我们将 Spark 查询稍微更改为:

df1.where($"StoreNumber" === 1 && $"Year" === 2011 && $"Month" === 11).explain

== Physical Plan ==
*(1) Project [Day#462, SalesAmount#463, StoreNumber#464, Year#465, Month#466]
+- *(1) Filter (isnotnull(StoreNumber#464) && (cast(StoreNumber#464 as int) = 1))
   +- *(1) FileScan csv [Day#462,SalesAmount#463,StoreNumber#464,Year#465,Month#466] Batched: false, Format: CSV, Location: InMemoryFileIndex[file:/tmp/partition_test1], PartitionCount: 1, Par
titionFilters: [isnotnull(Month#466), isnotnull(Year#465), (Year#465 = 2011), (Month#466 = 11)], PushedFilters: [IsNotNull(StoreNumber)], ReadSchema: struct<Day:string,SalesAmount:string,Store
Number:string>

现在，PartitionFilters 和 PushedFilters 都将最大限度地减少 Spark 工作负载。正如您所看到的，Spark 首先通过 PartitionFilters 识别现有分区，然后应用谓词下推，从而利用这两个过滤器。

完全相同的情况也适用于 parquet 文件，最大的区别是 parquet 将利用谓词下推过滤器，甚至更多地将它们与其内部基于柱状的系统结合起来(正如您已经提到的)，该系统保留指标和对数据进行统计。因此，与 CSV 文件的区别在于，对于 CSV，当 Spark 读取/扫描 CSV 文件(排除不满足谓词下推条件的记录)时，将发生谓词下推。对于 parquet，谓词下推过滤器将传播到 parquet 内部系统，从而导致更大的数据修剪。

在您的情况下，从 createOrReplaceTempView 加载数据不会有所不同，并且执行计划将保持不变。

一些有用的链接:

https://spark.apache.org/docs/latest/sql-data-sources-parquet.html

https://www.waitingforcode.com/apache-spark-sql/predicate-pushdown-spark-sql/read

https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-SparkStrategy-FileSourceStrategy.html

关于pyspark - 与谓词下推相关的数据 block 分区，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56031691/

24

4

0

文章推荐： grammar - 什么是终结符和非终结符？

文章推荐： javascript - jQuery 删除包装元素

Mercurial 推/拉详细输出
当我推/拉存储库时，是否可以详细输出到底发生了什么？目前，我有一个大型存储库，正在将其推送到服务器，大约 15 分钟后。或者这样，它给了我一个错误，但没有告诉我它在这 15 分钟内做了什么。最佳答案
html - 推/拉多行列
我不知道我的方法是否有意义，但是，我需要实现如下图的布局: 现在，我只写一个并用其中的一列表示每个区域，例如 . 没有黄色区域，这工作正常: green red blue
css - 推/拉类在网格系统中做什么？
当我查看许多 CSS 网格系统和框架时，它们通常具有标准的列和行设置以及百分比宽度。例如这样的事情: 标准网格列: .col-10 { width: 83.33333%; width: cal
git子模块提交/推/pull
我想使用 git 子模块。我需要采取的步骤将我的更改推送到我的项目是 add/commit/push from submodule directory add/commit/push from pa
站长平台对百度流量与关键词工具进行重大升级：推“关键词影响力”
以下为百度站长平台的公告全文：结合站长对于关键词数据分析的需求，站长平台对流量与关键词工具进行了升级，推出(“关键词影响力”）这一全新概念。关键词影响力算法复杂，涵盖该关键词下百度搜索可以为
wxwidgets - (推+下拉)按钮wxWidgets
我需要一个具有普通按钮和下拉按钮的控件。例如类似的控件在 wxRibbonButtonBar 中可用，我无法在简单的 wxPanel 中使用它。最佳答案我实现了 SplitButton，它看起
svn - 如何将集市分支导出到新的颠覆存储库，然后从中拉/推
我一直在做一个项目，使用 Bazaar 作为版本控制系统。现在我必须和离岸人员一起工作，而他们只想使用 SVN。我有什么: 我的 bazaar 分支及其文件和修订版。一个全新的 subversio
data-structures - 推/拉数据流模型的优缺点是什么？
我一直在开发数据流/图表风格的内部 DSP 应用程序(Java 带有 Groovy/Jython/JRuby 的钩子(Hook)，通过 OSGi 的插件，大量的 JNI)，类似于纯数据和 simuli
assembly - THUMB 推/弹出指令
我正在尝试使用 THUMB 指令创建一个阶乘方法，我基本上做到了。我只有一个关于 PUSH/POP 操作码的问题:如果我使用 push 将 r0 的值存储在堆栈中(所以 push {r0} )，我可
ZeroMQ/ZMQ 推/拉模式的实用性
在尝试 ZeroMQ Push/Pull (他们称之为 Pipeline)套接字类型时，我很难理解这个图案。它被称为“负载均衡器”。假设单个服务器将任务发送给多个工作人员，推/拉将在所有客户端之间平
callback - Firebase - 推()回调
有什么方法可以使用 push() 方法找出我的数据何时保存在数据库中？我写了下面的代码，但它多次保存数据...... db.ref('news').push(opts).then(() => {
authentication - github - 推/拉时要求用户名和密码
我有这个问题，每次推或拉时我都必须把它放进去。我认为这是新的。有什么想法吗？最佳答案您可能正在使用 https 网址。切换到 ssh 并确保您的 key 设置正确(如果您的密码短语为空)，则不必输
assembly - ASM - 推/弹出
为什么当您将一个值压入堆栈时，ESP 寄存器会减少(而不是增加)，而当您弹出一个值时，ESP 寄存器会增加(而不是减少)？在这一点上，这对我来说是违反直觉的。最佳答案那是因为堆栈是从上到下“增长”
callback - Firebase - 推()回调
有什么方法可以使用 push() 方法找出我的数据何时保存在数据库中？我写了下面的代码，但它多次保存数据...... db.ref('news').push(opts).then(() => {
push - ZeroMQ 推/拉模式
我决定编写一个测试代码来查看 pusher - many pullers bundle 是如何工作的，我的怀疑成真了。拉取器按照连接的顺序接收消息，例如第一个消息由第一个连接的拉取器接收，第二个由第
javascript - 将新数字“推”入对象数组
我在 CSV 文件中存储了一长串日期。我已经成功地使用 d3.js 加载了这个数据集。现在我想向此数据集添加另一列，其中包含列表中每个日期的随机数。我相信此数据集已作为对象数组加载。所以我正在使用下
C++ vector 推/弹出
我一直在寻找解决方案。不使用 c++11。 for(int a = 1; a < team1.chan; a++) { team1.nums.push_back(ppb.back())
android - 如何在布局中滑动(推) subview ？
我打算在布局中构建带有滑动 subview 的 UI。 +--------------+ +--------------+ +--------------+ | view1
html - 推/拉 - 基础
Title 在小屏幕上，我首先需要标题，然后是文本字段，但在中等以上的屏幕上，我需要相反的方式 - 我已经尝试过推和拉，但它们无法工作 - 有什么想法吗？最佳答案根据 Swa
c++ - ZeroMQ 推/拉
zmq 的某些部分未以可预测的方式运行。我正在使用 VS2013 和 zmq 3.2.4。为了不在我的 pubsub 框架中“丢失”消息 [旁白:我认为这是一个设计缺陷。我应该能够首先启动我的订阅者

首页

博学

6Ren·AI

商城

pyspark - 与谓词下推相关的数据 block 分区