gpt4 book ai didi

ruby-on-rails - 如何增量填充数据仓库?

转载 作者:搜寻专家 更新时间:2023-10-30 19:46:23 25 4
gpt4 key购买 nike

我开发过多个应用程序,并与其他在数据仓库的多个细节方面遇到问题的开发人员进行了交谈。

我看到的主要问题是关于操作数据存储中的变更数据检测 (CDC)。 更新和硬删除显然很难在操作数据存储中检测到。

可以通过在每个表上插入触发器来处理更新,这些触发器会使用当前时间戳自动更新 updated_at 列。尽管删除更难 - 一种解决方案是在其中放置一个触发器,该触发器使用已删除的 ID、表和时间戳更新审计表。

使用触发器似乎是进行变更数据检测的最合理方法,但我看到的另一种选择是解析数据库事务日志文件,尽管这可能会使更新操作数据存储数据库变得更加困难。

我的问题是,人们通常如何处理这个问题?我做了相当多的研究,似乎很多从事数据仓库的公司都在推出他们自己的次优解决方案。

我见过的另一个避免与 CDC 相关问题的解决方案是每隔一段时间简单地重建整个(或与源数据相关的部分)数据仓库,这将确保所有数据都是最新的并且存在在操作数据存储上执行 CDC 的代码中没有错误。

最佳答案

这是我通常处理更新和删除的方式。

源系统更新

一些 DBMS 提供了一个列,如果将其添加到所有表中,就会为数据仓库提供一个始终递增的唯一标识符。 SQL Server 有 TIMESTAMP 列。 Oracle 提供了 ora_rowscn 伪列,擅长 block 级。

虽然我没有使用过它,但 Postgres 有 xmin 伪列,我相信它可以以类似的方式使用。对此存在一些担忧,但我认为出于数据仓库更改跟踪的目的,它可能会成功。

更新上次修改日期的源系统中的更新触发器是另一种选择。保持此日期的精度非常高,以降低在您提取数据时如果某项操作正在对 ODS 进行大量更新时“丢失”记录的风险。

源系统中的删除

至于删除的记录,我的首选解决方案是确保所有源表都有一个主键(最好是一列,虽然多个也是可行的)。我每天将该列的全部提取到一个阶段表中,然后识别目标表中与源表相比“缺失”的行,更新“源已删除”标志或目标记录上的某些内容。我通常只对维度表执行此操作,因为即使原始事务消失,事实表也应该保留历史记录。

关于ruby-on-rails - 如何增量填充数据仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11329576/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com