amazon-s3 - UPSERT 拼花 Pyspark-6ren

amazon-s3 - UPSERT 拼花 Pyspark

转载作者：行者123 更新时间：2023-12-01 10:17:38

26

4

我在 s3 中有带有以下分区的 Parquet 文件:
年/月/日/some_id
使用 Spark (PySpark)，每天我都想最后一次 UPSERT 14 天 - 我想替换 s3 中的现有数据(每个分区一个 Parquet 文件)，但不删除 14 天之前的天数..
我尝试了两种保存模式:
append - 不好，因为它只是添加了另一个文件。
覆盖 - 删除过去的数据和其他分区的数据。

有什么方法或最佳实践可以克服这个问题吗？我应该在每次运行中读取 s3 中的所有数据，然后再写回吗？也许重命名文件以便 append 将替换 s3 中的当前文件？

非常感谢!

最佳答案

我通常会做类似的事情。就我而言，我执行 ETL 并将一天的数据附加到 Parquet 文件:

关键是要处理要写入的数据(在我的情况下是实际日期)，确保按 date 进行分区列并覆盖 的所有数据当前日期 .

这将保留所有旧数据。举个例子:

(
    sdf
    .write
    .format("parquet")
    .mode("overwrite")
    .partitionBy("date")
    .option("replaceWhere", "2020-01-27")
    .save(uri)
)

你也可以看看 delta.io这是 的扩展 Parquet 格式提供了一些有趣的功能，如酸交易。

关于amazon-s3 - UPSERT 拼花 Pyspark，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59922250/

26

4

0

文章推荐： typescript - 区分联合类型

文章推荐： Kotlin - 无法通过解构声明为 lateinit 变量分配新值

文章推荐： ios - 如何在没有动画的情况下更新 SwiftUI 列表

postgresql - 如何确定 upsert 是否是 PostgreSQL 9.5+ UPSERT 的更新？
可写 CTE 被认为是 9.5 之前的 UPSERT 解决方案，如 Insert, on duplicate update in PostgreSQL? 中所述可以使用以下可写 CTE 惯用法的信息
postgresql - 如何确定 upsert 是否是 PostgreSQL 9.5+ UPSERT 的更新？
可写 CTE 被认为是 9.5 之前的 UPSERT 解决方案，如 Insert, on duplicate update in PostgreSQL? 中所述可以使用以下可写 CTE 惯用法的信息
python - PyMongo upsert 抛出 "upsert must be an instance of bool"错误
我正在通过 Python 在我的 MongoDB 上运行更新。我有这一行: self.word_counts[source].update({'date':posttime},{"$inc" : wo
node.js - 如果 Upsert 是更新，如何撤消更新；如果 Upsert 是使用 Sequelize 插入，则如何删除
我正在尝试使用 Sequelize 添加将数据创建到我的expressJs 应用程序中的 2 个表中的功能。 Controller : Campaign.upsert({ institutio
ngxs 状态运算符插入或替换数组中的项目(upsert)
我正在尝试用现有的 ngxs 状态运算符替换或插入数组项 (upsert)。我目前正在使用以下 iif 语句。有更简单的方法吗？ setState( patch({ contractLis
使用条件语法的 Kdb upsert？
有没有一种方法可以在发生以下情况的 kdb 中更新插入: 如果键不存在，则插入值如果key存在，检查当前值是否大于 A) 如果是，则不执行任何操作 B) 如果不是，更新值类似于: job upse
Cassandra Upsert 不适用于每一列
我正在尝试更新测试键空间和表中的记录。当我插入一条记录时，接受一个列值更改，而另一个不接受。 (注意:尽管没有错误消息，我也无法删除记录) 观察 middle_initial 是如何不更新的，而 ti
sql - upsert sql查询
我正在寻找一些有关如何优化sql存储过程的建议。对于第一个查询，我正在执行插入操作，对于第二个查询，我正在进行更新(如果数据存在)。我想要做的是将两个存储过程合并为一个，查询将检查数据是否存在而不
Elasticsearch - NEST - Upsert
我有以下两个类(class) 条目 public class Entry { public Guid Id { get; set; } public IEnumerable Data
基于查询的 Elasticsearch upsert
两年前有人问how to do upserts when you don't know a document's id . (未接受的)答案引用了 feature request 这导致了 _upda
Python UpSert - 参数不足
今天这有点令人沮丧。我确定它很简单，我忽略了。请参阅下面的代码(为了示例而简化): def dbUpsert(sqlQuery, sqlValues): # Connect to the da
Python UpSert - 参数不足
今天这有点令人沮丧。我确定它很简单，我忽略了。请参阅下面的代码(为了示例而简化): def dbUpsert(sqlQuery, sqlValues): # Connect to the da
java - 如何使用API而不是硬编码字符串进行sqlite upsert？
我想更新插入(如果不存在则更新插入)我的 sqlite 表中的一些行。我看到了这个sqlite命令: INSERT OR REPLACE INTO Employee (id, name, role)
python - 具有多个键值的mongoDB`upsert`
我要从Amazon Mechanical Turk中提取一些数据并将其保存在mongodb集合中。我有多个工作人员重复执行每个任务，因为略有冗余可以帮助我检查工作质量。每次使用boto AWS p
postgresql - UPSERT 测试代码中的语法错误
我正在尝试测试新的 PostgreSQL upsert syntax使用以下测试代码，但出现语法错误: test=> CREATE TABLE test1 ( test(> key1
SQL Upsert 语句不适用于非索引列
我正在使用 PostgreSQL v9.6.6。我正在运行以下 SQL: insert into t_vs_config_key (name, description, is_brand_depend
sql - upsert 函数中不存在错误的地方
我在为 postgresql 编写强大的 upsert 函数方面得到了很多帮助。我正在尝试将值插入到包含 3 列的表中，其中两列是外键，一列是文本。我有一个非常相似的函数，效果很好，只是没有像这个函
MySQL "UPSERT"并删除不受影响的行
我在 MySQL 中有一个表，每晚都会通过 cron 任务更新。每一行都被更改，因为我从 XLS 文件获取数据并且必须更新所有值。首先我的问题是是否值得更新每一行，或者另一方面删除所有行并再次插入。
sql - Upsert/on 与串行主键冲突
更新插入在冲突时有效，但 id 的数据类型是串行的，这意味着我想让它自动生成/递增。如果我在不指定 id 的情况下执行插入，则插入工作正常。我遇到的问题是将两者结合起来。为了让 key 自动递增，我
sql - UPSERT 一行取决于两列值的唯一组合
这个问题在这里已经有了答案: How to UPSERT (MERGE, INSERT ... ON DUPLICATE UPDATE) in PostgreSQL? (7 个答案) 关闭 4 年前

首页

博学

6Ren·AI

商城

amazon-s3 - UPSERT 拼花 Pyspark