gpt4 book ai didi

sql - 数据仓库重复维度行

转载 作者:行者123 更新时间:2023-12-03 02:14:40 26 4
gpt4 key购买 nike

我们开始使用事件日志中的数据加载数据仓库。我们有一个正常的星型模式,其中事实表中的一行代表一个事件。我们的维度表是 user_agent、ip、referal、page 等的典型组合。一个维度表如下所示:

create table referal_dim(
id integer,
domain varchar(255),
subdomain varchar(255),
page_name varchar(4096),
query_string varchar(4096)
path varchar(4096)
)

我们自动生成 id 以最终连接到事实表。我的问题是:在批量加载过程中识别重复记录的最佳方法是什么?在实际插入持久存储之前,我们将日志文件的所有记录上传到临时表中,但是,id 只是自动递增,因此两天内的两个相同的暗淡记录将具有不同的 id。创建值列的哈希值然后尝试进行比较是否合适?尝试比较每个值列似乎会很慢。对于这种情况有什么最佳实践吗?

最佳答案

代理 PK 的自动递增整数是可以的,但是(根据 Kimball 先生的说法)维度表也应该有一个自然键。因此,哈希 NaturalKey 列是有序的,“当前”或“过期”的 Status 列也可能有助于支持 SCD 类型 2。

关于sql - 数据仓库重复维度行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1723285/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com