gpt4 book ai didi

data-warehouse - 数据仓库中的代理键

转载 作者:行者123 更新时间:2023-12-04 06:47:49 27 4
gpt4 key购买 nike

我想了解如何在实时 DWH 环境中利用代理键。我知道他们增加了不依赖于源生成的数据来存储每个维度键的好处,并且实际上还避免了从维度的自然键中构建的复合键,例如,(prod id + cust id + time id)

但是,当我们将数据加载到事实中时,它是否不会增加必须维护(自然键、代理键)查找的复杂性。我过去 3 年一直在 BI/DW 团队工作,我们没有在我们的系统中维护任何代理键。我们利用自然键来构建我们的数据集市。一个示例用例是存储在交易系统中的收入数据,该数据使用来自源的相同自然键以客户、产品、时间段粒度加载到仓库中。我们使用相同的方式加入相应的维度来构建 STAR 模式。

我认为在我们的案例中有意义的主要原因是企业使用 EDW 数据在帐户级别对数据进行微观分析,而不仅仅是趋势分析。在我们使用自然键实现的情况下,我们需要维护数据完整性。我想了解其他 DW 环境是如何工作的。您如何在系统中利用代理键或自然键。

谢谢!

最佳答案

原因之一是保持并能够比较历史变化。

例如,如果您的产品属性之一发生更改,并且您想查看和比较属性更改前后的收入,您将如何在不使用代理产品 key 的情况下做到这一点?使用自然键只会在 ETL 时覆盖旧值。

查找不必非常复杂来维护。大多数 ETL 工具都支持这一点,并且通常有一些内置的缓存机制来缓存查找值。

另外,当您说“实时”数据仓库时,您是什么意思?您使用的是 ROLAP、DirectQuery 或类似的东西吗?如果是这样,您可能会直接在 OLTP 系统上构建您的集市,并在某些语义模型中进行反规范化。然后您可以使用您的自然键,因为没有传统的 ETL/数据仓库来进行查找和存储您的代理键。

最后,粒度与您使用的 key 类型无关。

关于data-warehouse - 数据仓库中的代理键,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43696311/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com