gpt4 book ai didi

apache-spark - Spark SQL 是否包括用于连接的表流优化?

转载 作者:行者123 更新时间:2023-12-04 19:55:48 26 4
gpt4 key购买 nike

Spark SQL 是否包括用于连接的表流优化,如果是,它如何决定流哪个表?

在进行连接时,Hive 假定最后一个表是最大的。作为连接优化,它会尝试缓冲较小的连接表并将最后一个连接表通过。如果连接列表中的最后一个表不是最大的,则 Hive 具有 /*+ STREAMTABLE(tbl) */提示它告诉它应该流式传输的表。从 v1.4.1 开始,Spark SQL 不支持 STREAMTABLE 提示。

这个问题是在 Spark SQL 之外的正常 RDD 处理中被问到的,here .答案不适用于开发人员无法控制显式缓存操作的 Spark SQL。

最佳答案

前段时间我一直在寻找这个问题的答案,我所能想到的就是设置一个 spark.sql.autoBroadcastJoinThreshold参数,默认为 10 MB。然后它将尝试自动广播大小小于您设置的限制的所有表。联接顺序在此设置中不起作用。

如果您有兴趣进一步提高连接性能,我强烈推荐 this presentation .

关于apache-spark - Spark SQL 是否包括用于连接的表流优化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32127535/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com