pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能-6ren

pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能

转载作者：行者123 更新时间：2023-12-05 04:54:43

26

4

我想知道这两个命令之间的性能(阅读时)是否存在差异？:

df.write.format('parquet').partitionBy(xx).save('/.../xx.parquet')df.write.format('parquet').partitionBy(xx).saveAsTable('...')

我知道对于 bucketing 问题不会出现，因为它只用于托管表 (saveAsTable()) ；但是，对于是否有特权方法的分区，我有点困惑。

最佳答案

我试图在一个小数据框上找到一个实验性的答案，结果如下:

ENV = Databricks Community edition 
      [Attached to cluster: test, 15.25 GB | 2 Cores | DBR 7.4 | Spark 3.0.1 | Scala 2.12]

sqlContext.setConf( "spark.sql.shuffle.partitions", 2)
spark.conf.set("spark.sql.adaptive.enabled","true")

df.count() = 693243

结果:

正如预期的那样，使用 .saveAsTable() 编写的代码稍长一些，因为它必须执行专用的“CreateDataSourceTableAsSelectCommand”才能实际创建表。然而，有趣的是，在这个简单的例子中，在阅读支持 .saveAsTable() 时观察差异将近 10 倍。如果有人有能力做到这一点，我将非常有兴趣在更大范围内比较结果，并了解幕后发生的事情。

关于pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65665452/

26

4

0

文章推荐： javascript - 如何在 Vue 2 渲染函数中使用插槽？

文章推荐： angular - 仅针对第一个事件触发 combineLatest

文章推荐： ada - (Ada) SPARK 中的冰点问题

hadoop - 使用SPARK数据框的方法 “saveAsTable”时权限被拒绝
我正在使用Spark 1.3，并且试图从一个RDD生成一个表。这是伪代码: val sc = new org.apache.spark.SparkContext(conf) val sqlContex
apache-spark - spark saveAsTable 真的创建表了吗？
这可能是一个愚蠢的问题，因为缺乏 spark 的一些基础知识，我试试这个: SparkSession spark = SparkSession.builder().appName("spark ...
apache-spark - Pyspark - saveAsTable - 如何将新数据插入现有表？
如何向现有表中插入新数据？？？我正在尝试使用 pyspark 将新数据插入现有表。这是我的程序 from pyspark import SparkContext from pyspark.sql
scala - Spark 数据帧 saveAsTable 正在使用单个任务
我们有一个初始阶段可以适当扩展的管道 - 每个使用几十个 worker 。最后阶段之一是 dataFrame.write.format(outFormat).mode(saveMode). part
hadoop - Spark SQL saveAsTable 返回空结果
我正在使用以下代码在 Spark SQL 中创建数据/将数据插入到 Hive 表中: val sc = SparkSession .builder() .appName("App") .m
apache-spark - 为什么Spark saveAsTable 和bucketBy 创建了数千个文件？
上下文 Spark 2.0.1，集群模式下的spark-submit。我正在从 hdfs 读取 Parquet 文件: val spark = SparkSession.builder .
hadoop - Sparksql saveAsTable 调用错误的 hdfs 端口
我用hadoop 2.6.3、spark 2.0.0(之前是1.6.1)、hive 2.0配置了一个hadoop集群；最近，我更改了 hadoop 端口规范。一项重大更改是针对 core-site.
apache-spark - 在 Spark 的 saveAsTable 上
我们正在尝试从 SPARK 写入 HIVE 表，我们正在使用 saveAsTable 函数。我想知道 saveAsTable 是否每次都删除并重新创建配置单元表？如果这样做，那么是否有任何其他可能的
apache-spark - pyspark.sql.DataFrameWriter.saveAsTable() 的格式
有谁知道我在哪里可以找到 pyspark.sql.DataFrameWriter 中 saveAsTable() 函数的可用格式列表？在 the documentation它只是说“用于保存的格式”。
apache-spark - 在循环内使用 sparkDF.write.saveAsTable() 会导致作业之间的延迟呈指数增长
我需要在 for 循环中执行一组不同的 hive 查询。 hc=HiveContext(sc) queryList=[set of queries] for i in range(0,X):
java - Spark Java saveAsTable 因 ArrayIndexOutOfBoundsException 而失败
我使用的是 2.4.0 Spark-core 和 Spark-sql。我正在尝试创建 sparkSession，然后创建一个范围，然后将其写入表。使用 Scala 以下代码有效 val spark
scala - Apache Spark 1.3 dataframe SaveAsTable 数据库不是默认的
我正在尝试使用 saveAsTable 将数据框保存为表格很好用，但我想将表保存到不是默认数据库，有谁知道是否有办法设置要使用的数据库？我尝试使用 hiveContext.sql("use db_na
apache-spark - 在写入过程中 session 被终止时，Spark saveAsTable 是否回滚？
使用 saveAsTable 附加到 Hive 管理的表时，不完整的 saveAsTable 完成的工作会回滚，还是部分信息会保留？最佳答案用spark写表时没有“回滚”的概念。当您 saveAs
apache-spark - saveAsTable 和 insertInto 在不同的 SaveMode 下有什么区别？
我正在尝试写一个 DataFrame进入 Hive表(在 S3 上)在 Overwrite模式(对于我的应用程序是必需的)并且需要在 DataFrameWriter (Spark/Scala) 的两种
apache-spark - Spark saveAsTable 的位置位于 s3 存储桶的根本原因 NullPointerException
我正在使用 Spark 3.0.1，我的分区表存储在 s3 中。请在此处找到问题的描述。创建表 Create table root_table_test_spark_3_0_1 ( id s
scala - 共享 HDInsight SPARK SQL 表 saveAsTable 不起作用
我想使用画面显示来自 HDInsight SPARK 的数据。我在关注 this video他们在其中描述了如何连接两个系统并公开数据。目前我的脚本本身非常简单，如下所示: /* csvFile
hadoop - Spark Sql 1.5 dataframe saveAsTable 如何添加配置单元表属性
我在配置单元上运行 spark sql。我需要在创建新的配置单元表时添加 auto.purge 表属性。我尝试使用以下代码在调用 saveAsTable 方法时添加选项: inputDF.write.
hadoop - 为什么 DataFrame.saveAsTable ("df") 将表保存到不同的 HDFS 主机？
我已经用 Spark (1.4.0) 配置了 Hive (1.13.1)，我可以从 hive 访问所有数据库和表，我的仓库目录是 hdfs://192.168.1.17:8020/用户/ hive /
Delta Table saveAsTable giving null pointer exception(增量表saveAsTable给出null指针异常)
I am getting the below error stack trace while creating a Delta table. Spark version 3.2.1创建增量表时，
pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能
我想知道这两个命令之间的性能(阅读时)是否存在差异？: df.write.format('parquet').partitionBy(xx).save('/.../xx.parquet')df.wri

首页

博学

6Ren·AI

商城

pyspark - Spark 3.0 - 使用 .save() 或 .saveAsTable() 保存时的读取性能