python - PySpark/HIVE : append to an existing table-6ren

python - PySpark/HIVE : append to an existing table

转载作者：行者123 更新时间：2023-12-02 05:41:38

24

4

非常基本的问题 pyspark/hive 问题:

如何追加到现有表格？我的尝试如下

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext
conf_init = SparkConf().setAppName('pyspark2')
sc = SparkContext(conf = conf_init)
hive_cxt = HiveContext(sc)

import pandas as pd
df = pd.DataFrame({'a':[0,0], 'b':[0,0]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('overwrite').saveAsTable('database.table') #this line works

df = pd.DataFrame({'a':[1,1,1], 'b':[2,2,2]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('append').saveAsTable('database.table') #this line does not work
#sdf.write.insertInto('database.table',overwrite = False) #this line does not work

谢谢!山姆

最佳答案

似乎使用 option('overwrite') 导致了问题；它会删除该表，然后重新创建一个新表。如果我执行以下操作，一切都会正常:

from pyspark import SparkContext, SparkConf
from pyspark.sql import HiveContext

conf_init = SparkConf().setAppName('pyspark2')
sc = SparkContext(conf = conf_init)
print(sc.version)
hive_cxt = HiveContext(sc)
hive_cxt.sql('USE database')

query = """
        CREATE TABLE IF NOT EXISTS table (a int, b int)
        STORED AS parquet
        """
hive_cxt.sql(query)

import pandas as pd
df = pd.DataFrame({'a':[0,0], 'b':[0,0]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('append').format('hive').saveAsTable('table')

query = """
        SELECT *
        FROM   table
        """
df = hive_cxt.sql(query)
df = df.toPandas()
print(df) # successfully pull the data in table

df = pd.DataFrame({'a':[1,1,1], 'b':[2,2,2]})
sdf = hive_cxt.createDataFrame(df)
sdf.write.mode('append').format('hive').saveAsTable('table')

关于python - PySpark/HIVE : append to an existing table，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47557116/

24

4

0

文章推荐： spring - 运行 Spring Boot 应用程序时出现数据源错误

文章推荐： grails - 从 Roo 迁移到 Grails

MYSQL IF NOT EXISTS/WHERE NOT EXISTS 错误
我在 SQL 查询中使用了一个简单的 IF NOT EXISTS/WHERE NOT EXISTS 语句(我都尝试过)，但我总是收到 mysql 错误，不知道为什么。尝试使用不同的引号，检查我的 My
MySQL - 来自同一表的 NOT EXISTS/EXISTS 值更快
我有 2 个表:tbl1 和 tbl2。我想从 tbl1 返回一行，其中包含以下列:col1、col2、col3、can_be_deleted 、有重要项目。这个想法是，can_be_deleted
sql - 喜欢你的用户 (EXISTS) 但你没有与之聊天 (NOT EXISTS)
如果您是 "t1".persona_1_id = 2，则预期结果应返回 persona_id = 4。 like --- id persona_1_id persona_2_id liked 1 2
SQL - 如何在幂等插入示例中使用连接而不是 EXISTS 和 NOT EXISTS
我遇到了这个用于执行幂等插入的 github SQL 代码示例。完全按照我想要的方式工作。我不想使用 EXISTS，因为我觉得它有点困惑。可以使用联接对相同的操作进行编码吗？下面是我在 github
c# - 检查表是否存在 : Table doesn't exist while it exists
public bool CheckTblExist(string TblName) { try { string cmTxt = "s
sql-server - 如何在一个查询中使用 EXISTS 和 NOT EXISTS？
表1 Id Name DemoID 1 a 33 2 b 44 3 c 33 4 d 33 5 e 44 表2 Id DemoID IsT
sql - SQL中 "IF EXISTS"和 "IF NOT EXISTS"之间的区别？
我对 SQL 非常陌生。我想知道当我使用“IF EXISTS”或“IF NOT EXISTS”时会发生什么。例如:以下两个语句有什么区别: 语句 1:(存在) IF EXISTS( SELECT OR
exist-db - 如何为 exist-db 中的属性创建索引
我正在更新 exist-db 集合中的 XML 文件，我必须检查是否存在 id 以决定是否必须在我的文档中替换或插入某些内容。我注意到随着文件的增长，查询执行时间显着恶化，我决定为我的文件添加一个索
javascript - postgreSQL 错误 : "constraint does not exist" (but it does exist. ..)
我有一个正在尝试更新的数据库，但我不明白为什么会收到有关不存在的列的奇怪错误。当我使用“heroku pg:psql”访问数据库时，我完全可以看到该列。我找到了couple其他questions遇到类
mysql - SELECT EXISTS 和 EXISTS 之间的区别
我有一个这样的查询 SELECT ... FROM ... WHERE (SELECT EXISTS (SELECT...)) which did not return anything th
php - SQL : INSERT if no exist and UPDATE if exist
我有一个可以对数据库执行插入和更新的程序，我从 API 获取数据。这是我得到的示例数据: $uname = $get['userName']; $oname = $get['offerNa
Windows 批处理 : "if exist" -- path exists but it says no -- why?
我的批处理文件中有这个脚本 -- if not exist "%JAVA_HOME%" ( echo JAVA_HOME '%JAVA_HOME%' path doesn't exist) -
c# - 区分大小写 Directory.Exists/File.Exists
有没有办法让 Directory.Exists/File.Existssince 区分大小写 Directory.Exists(folderPath) 和 Directory.Exists(folde
mysql - SQL - EXISTS 和 NOT EXISTS 不等式
考虑使用这两个表和以下查询: SELECT Product. * FROM Product WHERE EXISTS ( SELECT * FROM Codes
eclipse - 在子剪辑 : How do I connect an existing workspace with an existing repository
我正在使用 Subclipse 1.6.18 使用 Eclipse 3.72 (Indigo) 来处理 SVN 1.6 存储库。这一切都在 Ubuntu 下运行。我有一个项目，在我更新我的 Ecli
Azure存储: Error checking for existence of existing Storage Share
我正在尝试使用 Terraform 配置 Azure 存储帐户和文件共享: resource "random_pet" "prefix" {} provider "azurerm" { versi
sql - 编写带有 NOT EXISTS 子句的查询，但不包含 NOT EXISTS 的子查询
我有兴趣为需要使用 NOT EXISTS 的应用程序编写查询。子句来检查一行是否存在。我正在使用 Sybase，但我想知道一般 SQL 中是否有一个示例，您可以在其中编写具有 NOT EXISTS
Azure存储: Error checking for existence of existing Storage Share
我正在尝试使用 Terraform 配置 Azure 存储帐户和文件共享: resource "random_pet" "prefix" {} provider "azurerm" { versi
sql - EXISTS 与 JOIN 以及 EXISTS 子句的使用
下面是代码示例: CREATE TABLE #titles( title_id varchar(20), title varchar(80)
sql - 使用 Exists 1 或 Exists * 的子查询
我曾经这样编写 EXISTS 检查: IF EXISTS (SELECT * FROM TABLE WHERE Columns=@Filters) BEGIN UPDATE TABLE SET

首页

博学

6Ren·AI

商城

python - PySpark/HIVE : append to an existing table