gpt4 book ai didi

statistics - 随着时间的推移用户行为的监督学习

转载 作者:行者123 更新时间:2023-11-30 08:28:40 25 4
gpt4 key购买 nike

我想使用机器学习来识别用户的签名,这些用户随着时间的推移会转变为网站的订阅者。

假设我的网站有 6 种不同的功能,可以在订阅前使用,并且用户可以随时转换为订阅者。

对于给定的用户,我有统计数据,代表该用户每天与功能 1-6 的连续交互强度,因此:

  • D1:f1、f2、f3、f4、f5、f6
  • D2:f1、f2、f3、f4、f5、f6
  • D3:f1、f2、f3、f4、f5、f6
  • D4:f1、f2、f3、f4、f5、f6

假设在第 5 天,用户发生了转化。

使用算法的机器可以帮助我识别哪些是导致转化的功能使用中最常见的模式?

(我知道这是一个 super 基本的分类问题,但我找不到使用纵向数据的好例子,其中输入向量像我一样按时间排序)

<小时/>

为了进一步解决这个问题,我们假设每个功能都有 3 个用户可以交互的强度(H、M、L)。

然后我们可以将每个用户表示为一串交互强度状态。因此,对于用户来说:

  • LLLLMM LMMMHH LLHHHH

这意味着在第一天,他们只与功能 5 和 6 进行了显着交互,但到了第三天,他们与功能 3 到 6 进行了高度交互。

N-gram 样式

我可以将这些状态变成单词,将用户的生命周期变成句子。 (可能还需要在词汇表中添加一个“转换”词)

如果我通过 n-gram 模型运行这些“句子”,我可以根据用户过去的几个状态得出他/她 future 可能的状态,这有点有趣。但是,我真正想知道的是导致转换词的最常见的 n 元组。我不想输入 n-gram 并获取下一个预测单词,而是想给出预测单词并返回 10 个最常见的 n-gram(从我的数据中),这可能会导致该单词。

Amaç Herdağdelen 建议将 n-gram 识别为实际 n,然后计算每个用户拥有多少个 n-gram 状态。然后与转换数据关联(我猜这个例子中没有转换词)。我担心的是,n 元语法太多,无法使该方法实用。 (如果每个状态有 729 种可能性,并且我们使用三元组,那就有很多可能的三元组!)

或者,我可以通过记录导致转换词的 n 元语法的数据,然后对它们运行某种类型的聚类来查看转换的常见路径是什么吗?

生存方式

由迭代器建议,我理解与生存问题的类比,但这里的文献似乎侧重于预测死亡时间,而不是导致死亡的常见事件顺序。此外,在查找考克斯比例风险模型时,我发现它不适应随时间变化的变量(它有利于区分性别和种族等静态属性)——所以它似乎非常适合与我的问题不同的问题。

决策树样式

尽管我无法完全理解如何构建数据,但这似乎很有希望。由于数据不是平坦的,树建模是否是从一种状态转移到另一种状态的机会以及何时导致转换?这与我找到的决策树数据文献有很大不同。

此外,需要清楚如何识别导致转化的模式,而不是模型预测给定序列后可能的转化范围。

最佳答案

理论上,hidden markov models可能是您问题的合适解决方案。您网站上的功能将构成字母表,您可以根据用户最终是否订阅来使用交互序列作为正面或负面实例。我不知道隐藏状态的数量应该是多少,但毕竟为该参数找到合适的值是问题的一部分。

顺便说一句,正面实例很容易识别,但用户到目前为止尚未订阅这一事实并不一定意味着他/她不会订阅。您可以考虑将数据限制为足够老的用户。

我还会考虑将数据转换为固定长度的向量,并应用概念上更简单的模型,这可以让您对正在发生的事情有一些直觉。您可以使用 n-grams (长度为n的连续交互序列)。

举个例子,假设给定用户的交互序列是“f1,f3,f5”,“f1,f3,f5”将构成一个3-gram(三元组)。类似地,对于相同的用户和相同的交互序列,您将使用“f1,f3”和“f3,f5”作为 2-gram(二元组)。为了将每个用户表示为一个向量,您需要识别直到实际 n 为止的所有 n 元语法,并计算用户使用给定 n 元语法的次数。向量中的每一列代表给定用户观察给定 n 元语法的次数。

然后——可能借助一些合适的标准化技术,例如 pointwise mutual informationtf-idf -- 您可以查看 n 元语法与最终结果之间的相关性,以了解正在发生的情况,执行 feature selection找到用户参与的最突出的序列,或者应用最近邻、支持机或朴素贝叶斯等分类方法来构建预测模型。

关于statistics - 随着时间的推移用户行为的监督学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6990230/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com