- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我开发过多个应用程序,并与其他在数据仓库的多个细节方面遇到问题的开发人员进行了交谈。
我看到的主要问题是关于操作数据存储中的变更数据检测 (CDC)。 更新和硬删除显然很难在操作数据存储中检测到。
可以通过在每个表上插入触发器来处理更新,这些触发器会使用当前时间戳自动更新 updated_at 列。尽管删除更难 - 一种解决方案是在其中放置一个触发器,该触发器使用已删除的 ID、表和时间戳更新审计表。
使用触发器似乎是进行变更数据检测的最合理方法,但我看到的另一种选择是解析数据库事务日志文件,尽管这可能会使更新操作数据存储数据库变得更加困难。
我的问题是,人们通常如何处理这个问题?我做了相当多的研究,似乎很多从事数据仓库的公司都在推出他们自己的次优解决方案。
我见过的另一个避免与 CDC 相关问题的解决方案是每隔一段时间简单地重建整个(或与源数据相关的部分)数据仓库,这将确保所有数据都是最新的并且存在在操作数据存储上执行 CDC 的代码中没有错误。
最佳答案
这是我通常处理更新和删除的方式。
源系统更新
一些 DBMS 提供了一个列,如果将其添加到所有表中,就会为数据仓库提供一个始终递增的唯一标识符。 SQL Server 有 TIMESTAMP 列。 Oracle 提供了 ora_rowscn 伪列,擅长 block 级。
虽然我没有使用过它,但 Postgres 有 xmin 伪列,我相信它可以以类似的方式使用。对此存在一些担忧,但我认为出于数据仓库更改跟踪的目的,它可能会成功。
更新上次修改日期的源系统中的更新触发器是另一种选择。保持此日期的精度非常高,以降低在您提取数据时如果某项操作正在对 ODS 进行大量更新时“丢失”记录的风险。
源系统中的删除
至于删除的记录,我的首选解决方案是确保所有源表都有一个主键(最好是一列,虽然多个也是可行的)。我每天将该列的全部提取到一个阶段表中,然后识别目标表中与源表相比“缺失”的行,更新“源已删除”标志或目标记录上的某些内容。我通常只对维度表执行此操作,因为即使原始事务消失,事实表也应该保留历史记录。
关于ruby-on-rails - 如何增量填充数据仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11329576/
sanitize 是什么意思在 Rails 中是什么意思? 我正在阅读 CanCanCan 的文档.它说: When using strong_parameters or Rails 4+, you
在过去的几个月里,我感觉自己对 Ruby on Rails (RoR) 开发的了解达到了极限。我为大/小客户和 friend /爱好项目开发了大大小小的应用程序。我知道如何开发这些应用程序,但开始感觉
我昨天参加了一个关于扩展 Rails 的聚会,其中一个主题是 Hexagonal Rails。然而,我只做了一年的 Rails,对 MVC 结构非常满意(也许太舒服了),所以我不太了解适配器和消息队列
我使用多个 Rails 应用程序,一些在 Rails 3.2/Ruby 2.0 上,一些在 Rails 2.3/Ruby 1.8.7 上。 他们的共同点是,随着他们的成长和添加更多的依赖项/ gem
这个问题在这里已经有了答案: Using Rails-UJS in JS modules (Rails 6 with webpacker) (5 个答案) 关闭 3 年前。 我正在尝试使用 UJS
我正在开发一个当前使用 Rails 1.2 的 Rails 应用程序,所以我现在离最新的稳定版本(Rails 2.3)还有很长的路要走。 我应该如何进行迁移到更新版本的 Rails 的过程? 我应该一
尝试按照 Ryan Bates Backbone.js 教程构建抽奖应用程序,但我已经遇到了第一段代码的问题。在 application.js 的 init 函数中,他初始化了 Raffler 路由的
我正在使用 Rails 3.2 并且我有一个数据库表,我想在其中找到符合以下条件的所有行: a = true and b = true and ( 0 true, :b =>
我有一个用户类和一个联系人,其中联系人是用户的子类。这两个类都存储在用户表中。 我的联系人可能有也可能没有电子邮件地址,而我的用户需要一个电子邮件地址(我的用户模型定义中有 validates_pre
我正在编写一个教程,我在其中演示了一些 rails 命令。在我的机器上 rails和 script/rails两者都同样有效。有“首选”形式吗?两者中哪一个更普遍? 最佳答案 当您运行 rails 时
我正在寻找有关通过我的应用程序前进的最佳方式的建议,这是我首次开始集成Elasticsearch。我是一名初学者,但是热衷于深入研究,以便原谅任何明显的错误! 我遵循了http://www.sitep
我刚刚用 Rails new 启动了一个新的 Rails 应用程序,将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器,结果很奇怪 2016-04-21 05:0
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下,我想将它转换成一个数组,什么是好的方法? 这是我的想法 if params[:
我刚刚用 Rails new 启动了一个新的 Rails 应用程序,将默认数据库设置更改为 PostgresSQL。我用 bin/rails s 启动服务器,结果很奇怪 2016-04-21 05:0
我收到一个参数并希望它是这样的字符串: "abc,efg" 或者像这样的数组 ["abc","efg"] 在第一种情况下,我想将它转换成一个数组,什么是好的方法? 这是我的想法 if params[:
我有 Rails 4,这是我的默认版本(我仍然希望它是)。但我不想在我的电脑上添加 rails 3.2。在以下命令中:gem install rails -v 3.2.16 我有这个警告: railt
您好,我想使用 Sheevaplug 构建一个“Rails Brick”来自 Marvell(操作系统是开箱即用的 Ubuntu,但您可以在其上安装其他发行版)。它将成为家庭服务器和静音、低成本(99
我需要能够从 Rails 控制台发送我的 Rails 应用程序的 Postgres 数据库中所有未接受的邀请。 (我有一个名为 Invitations 的表,其中包含一个名为 accepted 的 b
validate :cannot_modify_if_locked, on: :update def cannot_modify_if_locked if self.locked erro
我正在学习教程(学习 Rails 播客),需要更改以下路由语法,以便它与 Rails 3.0 兼容。谁能帮忙? map.view_page ':name', :controller => 'viewe
我是一名优秀的程序员,十分优秀!