gpt4 book ai didi

classification - 使用Mahout从分类的用户行为进行用户配置文件

转载 作者:行者123 更新时间:2023-12-04 04:38:08 27 4
gpt4 key购买 nike

我正在尝试使用Mahout对用户进行聚类和分类。目前,我正处于计划阶段,我的想法与想法完全融合在一起,并且由于我是该领域的新手,所以我一直坚持进行数据格式化。

假设我们有两个数据表(足够大)。在第一个表中,有用户及其操作。每个用户至少有一个 Action ,他们也可以有太多 Action 。该表中大约有10000个不同的user_actions和数百万条记录。

user        - user_action
u1 - a
u2 - b
u3 - a
u1 - c
u2 - c
u2 - c
u1 - b
u4 - f
u4 - e
u1 - e
u1 - d
u5 - d

在另一个表中,有操作类别。每个 Action 可能没有一个类别,也可能有多个类别。有60个类别。
user_action - category
a - cat1
b - cat2
c - cat1
d - NULL
e - cat1, cat3
f - cat4

我将尝试使用 Mahout 建立用户分类模型,但我不知道该怎么做。 我应该创建哪种类型的用户载体?还是我真的需要用户向量?

我想我需要创建类似的东西;
u1 (a, c, b, e, d)
u2 (b, c, c)
u3 (a)
u4 (f, e)
u5 ()

这里的问题是,一些用户执行了超过100000个操作(其中一些是相同的操作)

所以;我认为这更有用。
u1 (cat1, cat1, cat2, cat1, cat3)
u2 (cat2, cat1, cat1)
u3 (cat1)
u4 (cat4, cat1, cat3)
u5 ()

我也担心的是
  • 我应该如何为用户加权类别?例如,u1至少具有与cat1相关的三个 Action ,而u3仅具有1。这些应该不同吗?
  • 如何减少主动用户和被动用户之间的差异?就像u1的 Action 太多,因此类别一样,u3的 Action 也只有1。

  • 欢迎任何指导。

    最佳答案

    我将在您执行操作时为每个用户创建一行,并且每个类别都有一列;如果我正确理解您的示例,这将导致60列。列的值的范围是0到用户看到该类别的最大次数。结果将是每个用户60个数字,其中大多数为0。

    可能有必要在行上执行某种规范化。通过类似于在文本挖掘中生成文档矢量所进行的操作,可以将类似术语频率归一化的内容应用于行。每列也可能需要规范化。

    从这里开始,可以使用您选择的算法和聚类有效性度量来执行聚类,以帮助指导您选择最有趣的聚类。

    正是这种性质,您可能必须迭代地重复该过程,也许以新的方式表示输入数据。

    关于classification - 使用Mahout从分类的用户行为进行用户配置文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31127080/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com