gpt4 book ai didi

data-mining - 数据挖掘情况

转载 作者:行者123 更新时间:2023-12-04 12:49:18 27 4
gpt4 key购买 nike

假设我有下面提到的数据。

11AM user1 刷

11:05AM user1 Prep Brakfast

11:10AM user1 吃早餐

11:15AM user1 洗澡

上午 11:30 user1 离开办公室

12PM user2刷机

12:05PM user2 Prep Brakfast

12:10 PM user2 吃早餐

12:15PM user2 洗澡

12:30PM user2 离开办公室

11AM user3 洗澡

11:05AM user3 Prep Brakfast

11:10AM user3刷机

11:15 AM user3 吃早餐

上午 11:30 user3 离开办公室

12PM user4 洗澡

12:05PM user4 Prep Brakfast

12:10PM user4 刷机

12:15 PM user4 吃早餐

12:30PM user4 离开办公室

这些数据告诉我不同​​人的日常生活。从这个数据来看,user1 和 user2 的行为似乎相似(尽管它们执行事件的时间有所不同,但它们遵循相同的顺序)。出于同样的原因,User3 和 User4 的行为相似。
现在我必须将这些用户分组到不同的组中。在本例中,group1- user1 和 USer2 ... 后跟 group2,包括 user3 和 user4

我该如何处理这种情况。我正在尝试学习数据挖掘,这是我认为是数据挖掘问题的一个例子。我试图找到解决方案的方法,但我想不出一个。我相信这些数据有规律可循。但我想不出可以揭示它的方法。
此外,我必须将这种方法映射到我拥有的数据集上,该数据集非常庞大,但与此类似:) 数据是关于记录一次事件发生的日志。我想找到代表类似事件序列的组。

任何指针将不胜感激。

最佳答案

它看起来像 聚类 顶部 关联挖矿 ,更准确地说 Apriori算法。像这样的东西:

  • 挖掘 Action 之间所有可能的关联,即序列布什 -> 准备早餐,准备早餐 -> 吃早餐,...,布什 -> 准备早餐 -> 吃早餐等。你可以找到每一对、三胞胎、四人组等在您的数据中。
  • 从每个这样的序列中制作单独的属性。为了获得更好的性能,对属性添加 2 的提升,为三元组添加 3 的提升,依此类推。
  • 此时你必须有一个属性向量和相应的增强向量。您可以为每个用户计算特征向量:如果该序列存在于用户操作中,则在向量中的每个位置设置 1 * boost,否则设置 0)。您将获得每个用户的矢量表示。
  • 在这个向量上使用更适合您需求的聚类算法。每个找到的类都是您使用的组。

  • 示例:

    让我们将所有操作标记为字母:

    一把刷子
    b - 准备早餐
    c - 东方早餐
    d - 洗澡
    ...

    你的属性看起来像

    a1:a->b
    a2:a->c
    a3:a->d
    ...
    a10:b->a
    a11:b->c
    a12:b->d
    ...
    a30:a->b->c->d
    a31:a->b->d->c
    ...

    在这种情况下,用户特征向量将是:
    attributes   = a1, a2, a3, a4, ..., a10, a11, a12, ..., a30, a31, ...
    user1 = 1, 0, 0, 0, ..., 0, 1, 0, ..., 4, 0, ...
    user2 = 1, 0, 0, 0, ..., 0, 1, 0, ..., 4, 0, ...
    user3 = 0, 0, 0, 0, ..., 0, 0, 0, ..., 0, 0, ...

    要比较 2 个用户,需要一些距离度量。最简单的是 cosine distance ,这只是 2 个特征向量之间的余弦值。如果 2 个用户有完全相同的 Action 序列,他们的相似度将等于 1。如果他们没有共同点——他们的相似度将为 0。

    使用距离度量使用聚类算法(例如, k-means )来创建用户组。

    关于data-mining - 数据挖掘情况,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7613863/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com