gpt4 book ai didi

pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能

转载 作者:行者123 更新时间:2023-12-05 04:54:43 26 4
gpt4 key购买 nike

我想知道这两个命令之间的性能(阅读时)是否存在差异?:

df.write.format('parquet').partitionBy(xx).save('/.../xx.parquet')df.write.format('parquet').partitionBy(xx).saveAsTable('...')

我知道对于 bucketing 问题不会出现,因为它只用于托管表 (saveAsTable()) ;但是,对于是否有特权方法的分区,我有点困惑。

最佳答案

我试图在一个小数据框上找到一个实验性的答案,结果如下:

ENV = Databricks Community edition 
[Attached to cluster: test, 15.25 GB | 2 Cores | DBR 7.4 | Spark 3.0.1 | Scala 2.12]

sqlContext.setConf( "spark.sql.shuffle.partitions", 2)
spark.conf.set("spark.sql.adaptive.enabled","true")

df.count() = 693243

结果:

正如预期的那样,使用 .saveAsTable() 编写的代码稍长一些,因为它必须执行专用的“CreateDataSourceTableAsSelectCommand”才能实际创建表。然而,有趣的是,在这个简单的例子中,在阅读支持 .saveAsTable() 时观察差异将近 10 倍。如果有人有能力做到这一点,我将非常有兴趣在更大范围内比较结果,并了解幕后发生的事情。

enter image description here

关于pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/65665452/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com