- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们正在尝试从 SPARK 写入 HIVE 表,我们正在使用 saveAsTable 函数。我想知道 saveAsTable 是否每次都删除并重新创建配置单元表?如果这样做,那么是否有任何其他可能的 spark 函数实际上只是截断并加载一个表,而不是删除并重新创建。
最佳答案
这取决于您指定的 .mode 值
overwrite --> then spark drops the table first then recreates the table
append --> insert new data to the table
1.如果存在则删除/如果不存在则创建default.spark1 parquet格式的表
>>> df.write.mode("overwrite").saveAsTable("default.spark1")
2.存在则丢弃/不存在则创建 default.spark1 orc 格式的表
>>> df.write.format("orc").mode("overwrite").saveAsTable("default.spark1")
3.将新数据附加到表中的现有数据(不删除/重新创建表)
>>> df.write.format("orc").mode("append").saveAsTable("default.spark1")
使用 Spark 实现 Truncate 和 Load:
方法一:-
您可以将您的dataframe 注册为临时表,然后执行insert overwrite statement to overwrite target table
>>> df.registerTempTable("temp") --registering df as temptable
>>> spark.sql("insert overwrite table default.spark1 select * from temp") --overwriting the target table.
此方法也适用于内部/外部表。
方法二:-
在内部表的情况下,我们可以先截断表,然后将数据附加到表中,通过使用这种方式,我们不会重新创建表,而只是将数据附加到表中。
>>> spark.sql("truncate table default.spark1")
>>> df.write.format("orc").mode("append").saveAsTable("default.spark1")
此方法仅适用于内部表。
即使在外部表的情况下,我们也可以通过更改表属性来采取一些变通方法来截断表。
假设 default.spark1 表是外部表并且
--change external table to internal table
>>> saprk.sql("alter table default.spark1 set tblproperties('EXTERNAL'='FALSE')")
--once the table is internal then we can run truncate table statement
>>> spark.sql("truncate table default.spark1")
--change back the table as External table again
>>> spark.sql("alter table default.spark1 set tblproperties('EXTERNAL'='TRUE')")
--then append data to the table
>>> df.write.format("orc").mode("append").saveAsTable("default.spark1")
关于apache-spark - 在 Spark 的 saveAsTable 上,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51390857/
我正在使用Spark 1.3,并且试图从一个RDD生成一个表。这是伪代码: val sc = new org.apache.spark.SparkContext(conf) val sqlContex
这可能是一个愚蠢的问题,因为缺乏 spark 的一些基础知识,我试试这个: SparkSession spark = SparkSession.builder().appName("spark ...
如何向现有表中插入新数据??? 我正在尝试使用 pyspark 将新数据插入现有表。 这是我的程序 from pyspark import SparkContext from pyspark.sql
我们有一个初始阶段可以适当扩展的管道 - 每个使用几十个 worker 。 最后阶段之一是 dataFrame.write.format(outFormat).mode(saveMode). part
我正在使用以下代码在 Spark SQL 中创建数据/将数据插入到 Hive 表中: val sc = SparkSession .builder() .appName("App") .m
上下文 Spark 2.0.1,集群模式下的spark-submit。我正在从 hdfs 读取 Parquet 文件: val spark = SparkSession.builder .
我用hadoop 2.6.3、spark 2.0.0(之前是1.6.1)、hive 2.0配置了一个hadoop集群; 最近,我更改了 hadoop 端口规范。一项重大更改是针对 core-site.
我们正在尝试从 SPARK 写入 HIVE 表,我们正在使用 saveAsTable 函数。我想知道 saveAsTable 是否每次都删除并重新创建配置单元表?如果这样做,那么是否有任何其他可能的
有谁知道我在哪里可以找到 pyspark.sql.DataFrameWriter 中 saveAsTable() 函数的可用格式列表?在 the documentation它只是说“用于保存的格式”。
我需要在 for 循环中执行一组不同的 hive 查询。 hc=HiveContext(sc) queryList=[set of queries] for i in range(0,X):
我使用的是 2.4.0 Spark-core 和 Spark-sql。 我正在尝试创建 sparkSession,然后创建一个范围,然后将其写入表。 使用 Scala 以下代码有效 val spark
我正在尝试使用 saveAsTable 将数据框保存为表格很好用,但我想将表保存到不是默认数据库,有谁知道是否有办法设置要使用的数据库?我尝试使用 hiveContext.sql("use db_na
使用 saveAsTable 附加到 Hive 管理的表时,不完整的 saveAsTable 完成的工作会回滚,还是部分信息会保留? 最佳答案 用spark写表时没有“回滚”的概念。当您 saveAs
我正在尝试写一个 DataFrame进入 Hive表(在 S3 上)在 Overwrite模式(对于我的应用程序是必需的)并且需要在 DataFrameWriter (Spark/Scala) 的两种
我正在使用 Spark 3.0.1,我的分区表存储在 s3 中。请在此处找到问题的描述。 创建表 Create table root_table_test_spark_3_0_1 ( id s
我想使用画面显示来自 HDInsight SPARK 的数据。我在关注 this video他们在其中描述了如何连接两个系统并公开数据。 目前我的脚本本身非常简单,如下所示: /* csvFile
我在配置单元上运行 spark sql。我需要在创建新的配置单元表时添加 auto.purge 表属性。我尝试使用以下代码在调用 saveAsTable 方法时添加选项: inputDF.write.
我已经用 Spark (1.4.0) 配置了 Hive (1.13.1),我可以从 hive 访问所有数据库和表,我的仓库目录是 hdfs://192.168.1.17:8020/用户/ hive /
I am getting the below error stack trace while creating a Delta table. Spark version 3.2.1创建增量表时,
我想知道这两个命令之间的性能(阅读时)是否存在差异?: df.write.format('parquet').partitionBy(xx).save('/.../xx.parquet')df.wri
我是一名优秀的程序员,十分优秀!