gpt4 book ai didi

apache-spark - "predicate pushdown"和 "projection pushdown"有什么区别?

转载 作者:行者123 更新时间:2023-12-03 15:49:08 26 4
gpt4 key购买 nike

我接触过多种信息来源,例如找到的一个 here ,将“谓词下推”解释为:

… if you can “push down” parts of the query to where the data is stored, and thus filter out most of the data, then you can greatly reduce network traffic.



但是,我也在其他文档中看到了术语“投影下推”,例如 here ,这似乎是同一件事,但我不确定我的理解。

这两个术语之间有什么具体区别吗?

最佳答案

谓词是指影响返回行数的 where/filter 子句。

投影是指选定的列。

例如:

如果您的过滤器只传递 5% 的行,那么只有 5% 的表将从存储传递到 Spark 而不是整个表。

如果您的投影仅选择 10 列中的 3 列,那么将从存储传递到 Spark 的列更少,并且如果您的存储是柱状(例如 Parquet,而不是 Avro)并且未选择的列不是过滤器的一部分,那么这些甚至不必阅读列。

关于apache-spark - "predicate pushdown"和 "projection pushdown"有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58235076/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com