apache-spark - SparkSQL 中的惰性求值-6ren

apache-spark - SparkSQL 中的惰性求值

转载作者：行者123 更新时间：2023-12-05 08:09:25

28

4

这段代码来自 Spark Programming Guide ,

# The result of loading a parquet file is also a DataFrame.
parquetFile = sqlContext.read.parquet("people.parquet")

# Parquet files can also be registered as tables and then used in SQL statements.
parquetFile.registerTempTable("parquetFile");
teenagers = sqlContext.sql("SELECT name FROM parquetFile WHERE age >= 13 AND age <= 19")
teenagers.collect()

执行每一行时，Java 堆中到底发生了什么(Spark 内存是如何管理的)？

我特别有这些问题

sqlContext.read.parquet 是懒惰的吗？它会导致整个 parquet 文件加载到内存中吗？
执行收集操作时，对于要应用的 SQL 查询，
一个。是整个parquet先存储为一个RDD再处理还是
parquet 文件是先处理只选择 name 列，然后存储为 RDD，然后由 Spark 根据 age 条件过滤吗？

最佳答案

Is sqlContext.read.parquet lazy?

是的，默认情况下，spark 中的所有转换都是惰性的。

When the collect action is executed, for the SQL query to be applied

a. is the entire parquet first stored as an RDD and then processed or

b. is the parquet file processed first to select only the name column, then stored as an RDD and then filtered based on the age condition by Spark?

在每个 Action 上，spark 都会生成新的 RDD。此外，Parquet 是一种柱状格式，Parquet 读取器使用下推过滤器来进一步减少磁盘 IO。下推过滤器允许在数据被读入 Spark 之前做出早期数据选择决策。因此只有部分文件会被加载到内存中。

关于apache-spark - SparkSQL 中的惰性求值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37747122/

28

4

0

文章推荐： Spring boot 和 Spring Data JPA @Transactional 不工作

文章推荐： python - django/whitenoise 存储后端导致错误

文章推荐： rigraph 绘图布局错误 : incorrect number of subscripts on matrix

文章推荐： python - tasty pie - 返回带有非 ORM 对象的 JSON

Haskell 惰性、求值顺序和模式匹配
我先说我正在学习 Haskel，所以不要太苛刻。 Haskell 的惰性求值可能有用也可能危险，这取决于计算的瓶颈是时间复杂度还是堆栈的大小。出于这个原因，我想更好地了解 Haskell 中求值的工
algorithm - 惰性 A* 实现
我正在开发一款玩具 RTS 游戏，我依赖 A* 寻找路径，问题是很多单位四处移动导致计算的路径变得无效，这导致 CPU 周期浪费，我必须为那些重新计算路径代理商。所以我想为什么不懒惰地计算路径而不是
c# - 正则表达式非贪婪(惰性)
我正在尝试非贪婪地解析出 TD 标签。我从这样的事情开始: stuffMore stuffOther stuffthingsmore things 我使用以下作为我的正则表达式: Regex.Spli
haskell - 查找直角三角形时如何使用 Haskells 惰性
我正在学习 http://learnyouahaskell.com/starting-out 上的(优秀的)Haskell 教程。并且正在尝试直角三角形示例: > let triangles = [(
Haskell 惰性 I/O 和关闭文件
我编写了一个小型 Haskell 程序来打印当前目录中所有文件的 MD5 校验和(递归搜索)。基本上是 md5deep 的 Haskell 版本.一切都很好，除非当前目录有大量文件，在这种情况下我会收
haskell - 惰性 I/O 有什么不好呢？
我通常听说生产代码应该避免使用惰性 I/O。我的问题是，为什么？除了闲逛之外，还可以使用 Lazy I/O 吗？是什么让替代方案(例如枚举器)更好？最佳答案惰性 IO 存在的问题是，释放您所获取的
scala - 惰性 val 有什么作用？
我注意到 Scala 提供了lazy vals。但我不明白他们在做什么。 scala> val x = 15 x: Int = 15 scala> lazy val y = 13 y: Int =
haskell - 惰性 IO - 字符串未被垃圾收集？
我目前正在尝试将 XML 文件的内容读入 Map Int (Map Int String) 并且它工作得很好(使用 HaXml)。但是，我对程序的内存消耗不满意，问题似乎出在垃圾回收上。这是我用来读
scala - 惰性 val 可以尾递归吗？
lazy val seq: Unit = { println("a") seq } 我们可以尾递归调用上面的表达式吗？最佳答案我想你可以从这个意义上说，是的 - 评估时，seq将递归评估自
Scala 惰性 val 缓存
在以下示例中: def maybeTwice2(b: Boolean, i: => Int) = { lazy val j = i if (b) j+j else 0 } 为什么当我这样调用它
scala - Shapeless的“惰性”和默认参数导致隐式解析失败
我的一个项目使用了混合的Scala功能，这些功能似乎不能很好地融合在一起: 类型类和无形自动类型类实例派生隐式转换(向具有类型类实例的类型添加有用的语法) 默认参数，因为即使它们通常是一件坏事，但在
c - 用于稀疏、惰性、不可变数组的线程安全缓存
我有一个应用程序，涉及一个数组集合，这些数组可能非常大(索引最大为 int 的最大值)，但它们是惰性 - 它们内容是动态计算的，并且在请求之前实际上是不知道的。数组也是不可变的 - 每个数组的每个元素
java - 惰性 bean 初始化有什么真正的缺点吗？
最近我开始使用 spring 中的惰性初始化功能很多。所以我一直在徘徊——懒惰地初始化你的 bean 有什么实际的缺点吗？如果不是 - 为什么不是懒惰的默认行为？最佳答案主要的“缺点”是不能立即发
caching - 惰性 HTTP 缓存
我有一个通过信息亭向访问者显示的网站。人们可以与之互动。但是，由于该网站不是本地托管的，而是使用互联网连接 - 页面加载速度很慢。我想实现某种惰性缓存机制，以便在人们浏览页面时 - 页面和页面引用的
python - 惰性 ='joined' 是否意味着急切加载？
我是否正确理解声明关系急切加载的方法是使用lazy='joined'或lazy='subquery'？ “lazy”与“eager”相反——在这种情况下使用“lazy”关键字来表示急切加载，这是一个历
java - 惰性(贪婪)使用正则表达式匹配多个组
我想抓取对之间任何值的内容标签。 This is one block of text This is another one 我想出的正则表达式是 /(.*)/m 虽然，它看起来很贪心，并
ruby - 惰性 JSON 编码
考虑以下几点: z = [{"x" => 5}, 2, 3].lazy.map{ |i| i} #=> #5}, 2, 3]>:map> z.first #=> {"x"=>5} 当我尝试将 z 转换
PHP 惰性 bool 求值
因此我有一个条件语句: if($boolean && expensiveOperation()){ ...} PHP 是否具有惰性 bool 值评估，即它是否会检查 $boolean 并且如果它为 f
scala - @transient 惰性 val 字段序列化
我在 Scala 上有问题。我用 @transient lazy val 序列化了一个类的实例 field 。然后我反序列化它，该字段被分配null .我期待反序列化后的惰性评估。我该怎么办？以下是
Haskell:原子 IO 包装器/惰性？
我编写了以下函数，我认为该函数应该以原子方式执行 IO(只要其他人都使用相同的 MVar)。 atomicIO :: MVar () -> IO a -> IO a atomicIO mvar io

首页

博学

6Ren·AI

商城

apache-spark - SparkSQL 中的惰性求值