- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用机器学习来识别用户的签名,这些用户随着时间的推移会转变为网站的订阅者。
假设我的网站有 6 种不同的功能,可以在订阅前使用,并且用户可以随时转换为订阅者。
对于给定的用户,我有统计数据,代表该用户每天与功能 1-6 的连续交互强度,因此:
假设在第 5 天,用户发生了转化。
使用算法的机器可以帮助我识别哪些是导致转化的功能使用中最常见的模式?
(我知道这是一个 super 基本的分类问题,但我找不到使用纵向数据的好例子,其中输入向量像我一样按时间排序)
<小时/>为了进一步解决这个问题,我们假设每个功能都有 3 个用户可以交互的强度(H、M、L)。
然后我们可以将每个用户表示为一串交互强度状态。因此,对于用户来说:
这意味着在第一天,他们只与功能 5 和 6 进行了显着交互,但到了第三天,他们与功能 3 到 6 进行了高度交互。
我可以将这些状态变成单词,将用户的生命周期变成句子。 (可能还需要在词汇表中添加一个“转换”词)
如果我通过 n-gram 模型运行这些“句子”,我可以根据用户过去的几个状态得出他/她 future 可能的状态,这有点有趣。但是,我真正想知道的是导致转换词的最常见的 n 元组。我不想输入 n-gram 并获取下一个预测单词,而是想给出预测单词并返回 10 个最常见的 n-gram(从我的数据中),这可能会导致该单词。
Amaç Herdağdelen 建议将 n-gram 识别为实际 n,然后计算每个用户拥有多少个 n-gram 状态。然后与转换数据关联(我猜这个例子中没有转换词)。我担心的是,n 元语法太多,无法使该方法实用。 (如果每个状态有 729 种可能性,并且我们使用三元组,那就有很多可能的三元组!)
或者,我可以通过记录导致转换词的 n 元语法的数据,然后对它们运行某种类型的聚类来查看转换的常见路径是什么吗?
由迭代器建议,我理解与生存问题的类比,但这里的文献似乎侧重于预测死亡时间,而不是导致死亡的常见事件顺序。此外,在查找考克斯比例风险模型时,我发现它不适应随时间变化的变量(它有利于区分性别和种族等静态属性)——所以它似乎非常适合与我的问题不同的问题。
尽管我无法完全理解如何构建数据,但这似乎很有希望。由于数据不是平坦的,树建模是否是从一种状态转移到另一种状态的机会以及何时导致转换?这与我找到的决策树数据文献有很大不同。
此外,需要清楚如何识别导致转化的模式,而不是模型预测给定序列后可能的转化范围。
最佳答案
理论上,hidden markov models可能是您问题的合适解决方案。您网站上的功能将构成字母表,您可以根据用户最终是否订阅来使用交互序列作为正面或负面实例。我不知道隐藏状态的数量应该是多少,但毕竟为该参数找到合适的值是问题的一部分。
顺便说一句,正面实例很容易识别,但用户到目前为止尚未订阅这一事实并不一定意味着他/她不会订阅。您可以考虑将数据限制为足够老的用户。
我还会考虑将数据转换为固定长度的向量,并应用概念上更简单的模型,这可以让您对正在发生的事情有一些直觉。您可以使用 n-grams (长度为n的连续交互序列)。
举个例子,假设给定用户的交互序列是“f1,f3,f5”,“f1,f3,f5”将构成一个3-gram(三元组)。类似地,对于相同的用户和相同的交互序列,您将使用“f1,f3”和“f3,f5”作为 2-gram(二元组)。为了将每个用户表示为一个向量,您需要识别直到实际 n 为止的所有 n 元语法,并计算用户使用给定 n 元语法的次数。向量中的每一列代表给定用户观察给定 n 元语法的次数。
然后——可能借助一些合适的标准化技术,例如 pointwise mutual information或tf-idf -- 您可以查看 n 元语法与最终结果之间的相关性,以了解正在发生的情况,执行 feature selection找到用户参与的最突出的序列,或者应用最近邻、支持机或朴素贝叶斯等分类方法来构建预测模型。
关于statistics - 随着时间的推移用户行为的监督学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6990230/
我想做的是改变我的主管,尽最大努力让 children 运行,但如果他们的崩溃率超过强度,就放弃。这样剩下的 child 就可以继续跑。不过,这对于现有的主管配置来说似乎是不可能的,所以看起来我唯一的
我正在处理一个大型推文数据集,我从中将一小部分数据训练为四个手动分类的类别。每个手动分类大约有二十条推文,而数据集有数万条推文。这是我用来训练模型的代码。 from sklearn.feature_e
我的 celerybeat.conf [program:celerybeat] command=/path/app/env/bin/celery beat -A project.tasks --log
正如 ZooKeeper 的文档中所说,有必要使用 daemontools 之类的工具对其进行监督。但是文档没有提供任何示例,我知道启动 ZooKeeper 的唯一方法是运行 bin/zkServer
谁能给我解释一下这个例子中的 uibutton 目标功能: 我有一个 ViewController。我向这个 View Controller 添加了一个带有两个按钮的 uiview。一个按钮是在 in
我最近熟悉了 Erlang/OTP 技术,我想将其应用于监控和监督 Java 应用程序: 检测他们的可用性 启动和停止它们 换句话说,我希望 Java 应用程序被 Erlang OTP 主管基础架构视
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: What are MVP and MVC and what is the difference? 我在网站上
我是一名优秀的程序员,十分优秀!