作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
背景:我正在分析通话详细记录 (CDR) 数据,以便根据通话时长、通话时间(节假日通话或非节假日通话、商务通话)对客户进行分割或非商务电话)、用户年龄组和性别。数据来自两个表名cdr(包括card_number、service_key、calling、called、start_time、clear_time、duration列)
和subscriber_detail(包括subscriber_name、subscriber_address、DOB、gender列)
我设计了 OLAP,如下所示。
Call_date 包括通话日期以及年、月和日。 Call_time 是调用发生的时间(以秒为单位)。
问题:-如果我们以秒为单位的 call_time ,那么它每天有 86400 列(可能是维数灾难),因此我们认为通过采用 30 秒时间脉冲(电信)来减少其维数根据脉冲收费,30 是我们上下文中的脉冲持续时间)。 第一个问题是:-这是用脉冲持续时间代替时间的最佳方法吗? 第二个是:-如果一个订户在脉冲范围内进行两次以上调用,则可能会导致问题,即第一个调用在 21:01:00 开始,在 21:01:05 结束,然后他开始第二个调用21:01:15 调用,21:01:20 结束。如何解决此类问题。
最佳答案
如果我是你,我会将时间划分为 10 分钟时段,并使用链接列表来存储给定时段内的多个持续时间,因此时间的总维度为 144(这限制最多只能滚动 10 分钟)。
关于olap-cube - 电信数据的 OLAP Cube 设计问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15102752/
我是一名优秀的程序员,十分优秀!