gpt4 book ai didi

mysql - 数据仓库 - 如何使用 R 和/或 SQL 创建与所有维度相交的事实表

转载 作者:行者123 更新时间:2023-11-29 19:01:45 24 4
gpt4 key购买 nike

我正在尝试使用 4 个维度和 2 个文件创建一个事实表,但我无法连接所有信息。我通常使用 python,但现在我必须将其与 R 和 SQL 一起使用。我确切地知道应该如何连接所有信息,但我不知道如何创建SQL查询来做到这一点。因此,如果有人可以帮助我,我将非常感激。

首先,我将描述维度,然后描述文件。接下来我将解释连接所有内容并检索事实表行的想法是什么

4 个维度

  1. 维度观众:(2000 个条目)

    ID, Spectator Code, Region, Genre, age class
  2. 维度小时:(1440 条)

    ID, Hour, Minute, Complete Hour(HH:MM:SS), Period of the day
  3. 维度日期:(365 个条目)

    ID, Year, Month, Day, Complete Date (YYYY:MM:DD), Day of the week
  4. 维度计划:(60000 个条目)

    ID, Station, Name of Program, Start hour of the program (HH:MM:SS), Duration(seconds), Complete Date (YYYY:MM:DD)

2 个文件

在尺寸之后我还有另外 2 个文件

  1. 观众:(220 万条条目)

    Id (The same as Spectators File), Complete Date(YYYY:MM:DD), station, Duration of visualization(minutes), Start

    可视化结束(HH:MM:SS),可视化结束(HH:MM:SS)

  2. -观众文件:(300000 个条目)

    Id(The same as Audiences File), Spectator Code(The same as Spectators Dimension), region, genre, age class

不知何故,我想为表的每一行使用此格式来创建事实表(基于受众文件):

-观众维度的 ID ||将 ID 观众与观众文件的 ID 进行交互,然后将观众文件中的代码与观众维度进行交互

-日期维度的 ID ||将受众的完成日期与日期维度的完成日期进行交互

-小时维度的 ID - 开始可视化 ||将受众的完整小时与小时维度的完整小时进行交互

-小时维度的ID - 结束可视化||将受众的完整小时与小时维度的完整小时进行交互

-节目维度 ID(将观众可视化的完整日、站点以及开始和第二个之间的间隔与“开始”创建的完整日、站点和间隔进行交互节目的长度 + 节目维度的持续时间)观众的可视化必须在节目的持续时间之间才能在事实表中假设一行

-来自受众的可视化持续时间

<小时/>
  • 如果您已经看到这里,非常感谢!
<小时/>

最佳答案

当你说你有 4 个维度和 2 个文件时,我可以假设所有维度都以数据帧的形式存在于 R 上吗?或者 4 个维度是您需要使用 R 连接的一些外部 RDBMS 表? (出于某种原因,我无法评论您的问题,因此将其写在此处的答案中)。如果所有数据框都存在于R环境中,那么您可以使用merge来合并文件,或者使用SQLDF包来编写SQL语句。

关于mysql - 数据仓库 - 如何使用 R 和/或 SQL 创建与所有维度相交的事实表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43827048/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com