sql - 如何最好地处理缓慢变化的维度(SCD2)中的历史数据更改-6ren

sql - 如何最好地处理缓慢变化的维度(SCD2)中的历史数据更改

转载作者：太空狗更新时间：2023-10-30 01:49:48

25

4

表格:

我工作的公司的尺寸变化缓慢(员工数据)，已使用Kimball方法进行了存储。包含此数据的维度表具有一个主键(int identity employee_key，在其他表中用作替代)，一个自然键(employee_id)，有效日期范围(valid_date和invalid_date)以及随时间跟踪的各种SCD1和SCD2数据元素。这是一个简化的示例:

employee_key | employee_id | valid_date | invalid_date | employee_name | employee_role
1            | 1001        | 1/1/2015   | 6/1/2015     | Bob           | DBA
2            | 1001        | 6/2/2015   | NULL         | Bob           | Developer
3            | 1002        | 1/1/2015   | NULL         | Jill          | DBA

在上面的示例中， employee_key是主键(代理)，而 employee_id是自然键。希望其他值可以自我解释。该表反射(reflect)出:

Bob是一名DBA，从2015年1月1日开始到2015年6月1日结束。

Bob是一位开发人员，始于2015年6月2日，目前担任该职位。

Jill是从2015年1月1日开始的DBA，目前担任该角色。

现在，我们还有大量的事实表引用了该维度。一个这样的事实表包含员工记录的所有时间，并且细化到一天。我们实际上并不关心这些表的结构，只是它们使用代理键链接到我们的员工维度，并且它们通常包含很多行(介于10M-200M之间)。这是包含已记录时间的事实表的示例:

calendar_dt | employee_id | employee_key | time_code | hours
1/1/2015    | 1001        | 1            | 1234      | 2.25
1/1/2015    | 1001        | 1            | 21        | 3.50
1/2/2015    | 1001        | 1            | 21        | 8.00
...
6/1/2015    | 1001        | 1            | 21        | 4.00

通过代理键 employee_key链接到员工维度具有重要的商业目的-无需使用 BETWEEN运算符即可进行准确的历史报告，而无需进行昂贵的联接。例如，可以说鲍勃在2015年6月1日记录的时间归因于他的DBA角色，鲍勃在2015年2月6日记录的时间归因于他的开发者角色。

据我所知，这是一个有点标准的Kimball实现。

问题:

此实现不能很好地处理数据校正。假设在前面的示例中，HR告诉我们Bob的有效日期范围为2015年5月1日至2015年6月1日，他转为分析师角色，但他们未能将其输入到系统中。这给我们带来了一个主要问题:我们需要将 employee_key = 1的行拆分为有效日期/无效日期的两行。此外，我们需要找到现在错误地引用 employee_key = 1的所有位置并进行更新。这里是问题:

我们需要对许多巨大的表进行昂贵的更新操作。每次需要进行更正时，我们都无法承担此责任。

维度行拆分需要手动完成，使表处于数据输入错误或有效/无效日期范围重叠的风险。

拆分行违反了一条重要规则:主键是不可变的，一旦分配就永远不会更改。

解决方案:

我可以想到许多解决此问题的方法，但没有一种是优雅的:

承担更新代理 key 数据的噩梦。也许可以按正常时间表进行更正，从而减少了我们运行此更新所需的次数。

将“员工维度”表转换为“每员工每天行”表。这样做的好处是允许对employee_id和calendar_dt进行自然键联接。它还使该键不可变，并允许识别适当的替代键值，而无需在尺寸表中查找它。无论维度表如何更改，事实表将始终引用正确的行。这具有将我们的100,000行维表转换为20M第一行的主要缺点。

还有什么其他解决方案？我不可能是唯一遇到此问题的人...救救我!

警告:

我们假设数据将永远不需要时间元素(粒度将始终处于日级别)。

我们假设employee_id值永远不会改变(是的，我知道这是一个危险的假设)。

最佳答案

您的DW有一个要求:“可以随时追溯更改员工信息”，因此您的DW设计必须适应这一点。

解决这个问题的方法可能很多，但是想到的最简单的方法(对于类似的情况已经为我工作了)是引入一个新的类型2集成表:master_employee_time。该表将仅使用业务 key 维护原始时间记录数据的版本历史记录。

employee_time_key | employee_id | valid_date | invalid_date | time date | time code | hours
1                 | 1001        | 1/1/2015   | NULL         | 1/1/2015  | 1234      | 2.25
2                 | 1001        | 1/1/2015   | NULL         | 1/1/2015  | 21        | 3.5
3                 | 1001        | 1/2/2015   | NULL         | 1/2/2015  | 21        | 8

注意:此表可能需要特殊的更新条件，具体取决于您可以访问多少时间表数据，也许将type2更改限制为过去一年的time_dates，然后根据需要手动处理任何较旧的更新。

拥有该表后，您可以通过将master_employee和master_employee_time与类似的内容组合在一起，来每次加载时重新创建当前的事实表

insert into fact_employee_time
select
  t.calendar_dt, e.employee_id, e.employee_key, t.time_code, t.hours 
from
  master_employee_time t
  inner join master_employee e on t.employee_id = e.employee_id
where
  --limit to 'current' time recordings
  t.invalid_date is null  
  and
  --get the employee record active for the time recordings day
  e.valid_date <= t.time_date  
  and
  (e.invalid_date is null OR e.invalid_date >t.time_date)

[评论]
这也使您能够在更新时间记录的同时，为那些不可避免的“为什么我的一月数字发生变化”的需求保留了可审核的历史记录，而这些需求来自那些要求“我必须能够改变历史数据”的人。。
[/评论]

关于sql - 如何最好地处理缓慢变化的维度(SCD2)中的历史数据更改，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35908019/

25

4

0

文章推荐： database - Laravel 5 为测试之间的单元测试重新播种数据库

文章推荐： Python 类方法 - 有没有办法缩短调用时间？

文章推荐：发生 Python 套接字错误

文章推荐： database - 如何在 Slick 3.1 中使用不支持的数据库

java - 背景随着淡入淡出而过渡/变化
嘿伙计们。实现背景变化(基本上是幻灯片放映)和过渡效果的常见方法有哪些。我想每隔一段时间改变complte文档背景。我是一名 ASP.net 开发人员，并且希望大部分内容都可以在 ASP 中实现。
c++ - 指针随时间的改进/变化？
也许，指针已经在修改过程中指向 auto_ptr 的常规指针指向 unique_ptr 和 shared_ptr 我只是想知道已经开发出来的新型指针是否完全覆盖了旧版本(或者您可能认为存在内存泄漏问题
Android Fragments 变化
我使用 Android Studio 构建 Android 应用。我的问题是:当 fragment 改变时，应用程序崩溃。控制台输出[控制台] 01-06 18:35:21.952 27756-
javascript - 将鼠标悬停在表行上时如何放大表行？ - 变化
****澄清**我做了这个 [Fiddle] ( http://jsfiddle.net/sggPv/10/ ) 来帮助澄清情况。该脚本起初适用于两个表格，但随后当您点击 slider 并将新表格加
html - float 变化
我有图标，单击它会将新的 div(列)添加到 div 容器。问题是，当新的 div(列)出现时，按钮不会向右移动。是否可以以某种方式仅在 div 内添加 position:fixed？这是我的几个屏
Java编译时接口(interface)变化
我是 Java 新手，继承了现有的 Android 应用程序。原始开发人员选择使用常量接口(interface)。我的问题是我需要更改其中一些常量来编译生产应用程序与开发应用程序。如果我手动修改一些
iOS10 UIColor 变化
在 Apple developer Document 中，我在 UIColor 中发现了一些新东西。 If your app was linked on or after iOS 10 and whe
iphone - ShareKit 变化？
我没有经常使用 ShareKit，但我只想拥有三个共享选项:Facebook、Twitter 和电子邮件。 ShareKit 提供了更多选项，包括更多按钮。但是，我不想要“更多”选项，只想要三个。在
javascript - 高效检测单页应用中的 DOM 变化
我正在构建一个 JS 库，其中一个用例要求我在 DOM 更改时触发一个事件，特别是如果它是一个单页应用程序，例如:github search bar 经过一番研究，我遇到了MutationObserv
Excel 检测并跟踪任何工作表中的(值)变化
我已经设法编写了一个代码来检测任何工作表中特定单元格的值变化，但我一直在努力构建检测和跟踪范围(值)变化的东西。例如，如果用户决定复制和粘贴某个范围的数据(假设超过 1 个单元格)，它不会被宏捕获。
audio - 复杂的音频音量随 ffmpeg 变化
使用 ffmpeg ，我们可以对音频电平进行多少控制？例如，我想在程序的时间轴上映射一个“M”形: t0 - t1 : fade in from 0 to 1 t1 - t2 : play at fu
IE8 中的 jQuery on() 变化
使用 jQuery 1.7.1，我尝试为下拉列表上的更改事件创建一个事件处理程序。下拉列表会动态添加到 DOM 中。似乎在大多数浏览器上都能很好地工作，但是哦，奇怪的 IE8 想要变得困难。有解决方法
delphi - 调整非客户区大小后如何反射(reflect)变化？
我想制作一个具有可选边框大小的自定义控件。请参阅下面的代码。边框绘制在非客户区，其宽度可以是 0、1 或 2 像素。我已经在 WM_NCPAINT 中成功完成了边框绘制。问题是，在更改控制边框大小的属
javascript - 检测 URL 变化
我知道这个问题之前已经被问过，而且我实际上已经找到了一些我已经实现的解决方案。不幸的是，我没能得到我想要的。我以前没有做过AngularJS，我想做的是: 检测网址何时更改根据网址更改的内容进行一
AngularJS 观察 DOM 变化
我有一个 auto-carousel 指令，它循环访问链接元素的子元素。但是，子级尚未加载到 DOM 中，因为它们的 ng-if 表达式尚未解析。如何确保父指令知道其 DOM 树已发生更改？
android - 如何观察协程流的 ContentProvider 变化
我有一个流程可以通过内容提供商从数据库中获取数据。 fun getDataFlow(): Flow { return flow { emit(Result.Loading)
javascript - 文本随动画 jquery 变化
我有一些有效的代码，但有时它只是“跳转”到其他文本而不考虑间隔。该代码基本上按时间间隔更改标题的文本。 var text = ["text1", "text2", "text3","text4","
android - 如何监听 SwitchPreferenceCompat 变化
我正在尝试将 onCLick 监听器添加到我的 PreferenceScreen 上的开关，但它不起作用。我尝试了 Java 教程中的代码并将其转换为 Kotlin，但由于某种原因它无法正常工作。这
build - 升级ffmpeg时处理ffmpeg库接口(interface)变化
我们目前正在尝试升级我们的程序使用的 ffmpeg 版本。跳跃很大，因为我们目前使用的是 ffmpeg 0.8，最新版本是 1.2。在这些测试中，我使用的是(让我说)我发现的令人惊叹的软件包 her
android - 如何观察协程流的 ContentProvider 变化
我有一个流程可以通过内容提供商从数据库中获取数据。 fun getDataFlow(): Flow { return flow { emit(Result.Loading)

首页

博学

6Ren·AI

商城

sql - 如何最好地处理缓慢变化的维度(SCD2)中的历史数据更改