gpt4 book ai didi

amazon-web-services - aws glue rds增量加载

转载 作者:行者123 更新时间:2023-12-04 15:44:25 25 4
gpt4 key购买 nike

我正在尝试使用 AWS glue 将数据从 AWS RDS (MySQL) 加载到 redshift。我想增量加载数据。通过使用 Job Bookmarks,glue 只能跟踪新添加的数据,而不能跟踪更新的行。有没有办法只加载更新的数据?可能是通过使用 MySQL 源表中的字段 updated_at?

最佳答案

使用工作书签是不可能的。来自 AWS 文档:


作业书签是针对关系数据库(JDBC 连接)输入源的有限用例实现的。对于此输入源,仅当表的主键按顺序排列时才支持作业书签。此外,作业书签搜索新行,但不搜索更新的行。这是因为书签查找已经存在的主键。

https://docs.aws.amazon.com/glue/latest/dg/monitor-continuations.html

Glue 需要将整个 RDS 数据加载到动态框架或数据框架中。但是,如果您要避免截断 redshift 表并重新加载所有数据,则此数据可用于对 redshift 数据库执行更新插入。

https://docs.aws.amazon.com/redshift/latest/dg/c_best-practices-upsert.html

关于amazon-web-services - aws glue rds增量加载,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56479093/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com