gpt4 book ai didi

machine-learning - 预测一段时间内的客户流失

转载 作者:行者123 更新时间:2023-12-04 08:47:33 24 4
gpt4 key购买 nike

我的数据集有 2 列。订阅有一个 service_start_dateservice_end_date。目标列是 bool 值 has_churned

我如何进行训练/验证/测试拆分?它应该依赖于时间吗?例如,3 个月前的所有数据都是训练数据,最后 3 个月的数据作为验证数据,或者它可以是随机的吗?

另一个重要的问题是,假设我想为流失预测添加一个时间范围,我该怎么做?例如,如果我想预测 future 3 个月、6 个月等可能流失的客户?我如何实现这一目标以及我的测试数据集是什么样的?

最佳答案

看起来您的最终目标是预测给定时间范围内的客户流失。在该任务中,您将获得 t 时间的数据快照,并使用它进行预测。您需要在训练数据集中重现这些条件,但让我们先谈谈什么是“时间依赖”。

A) 您的数据集的时间依赖性如何?

您的数据集随时间演变,但我认为时间不应成为此处的因变量。事实上,(连续的)时间能告诉您什么关于客户流失的可能性?您可以转换数据集以消除对时间的依赖。方法如下:

  • 当您使用 service_start_dateservice_end_date 时,我认为对于流失预测真正重要的是了解服务的持续时间。您可以进行一些特征工程,并将 service_start_date 替换为 time_from_subscription 并将 service_end_date 替换为 time_to_end_of_subscription。然而,这意味着您为给定日期创建了一个数据集,我将在 B 部分开发它。但是请注意,如果您的服务只有一个可能的持续时间,您将拥有冗余功能,因此在这种情况下您应该只保留一个。<
  • 如果您的服务订阅可能会受到时间的影响,您当然可以用不同的方式对其进行编码。例如,如果您的服务是亚马逊 Prime 试用版,人们可能会在圣诞节期间订阅并从中受益,然后大量流失。这可以通过将月份作为分类变量进行编码。

一般来说,您应该想知道时间本身是否可以解释流失,或者它是否只是您可以以时间独立方式表达的另一个变量的代理,我认为对于您正在做的事情应该有可能。当然,我不了解您正在研究的服务,所以我可能是错的,但如果需要,我很乐意更新此答案!

B) 如何创建训练数据集?

如果可以像上面解释的那样转换数据集,那么创建训练数据集会更容易。为了模拟预测任务,您将不得不使用一个或多个日期来创建数据快照并将这些快照组合成一个训练数据集(您实际上将随着时间的推移进行采样)。根据快照,变量 time_from_subscriptiontime_to_end_of_subscription 和其他变量可能会有所不同。目标也会有所不同,您将不得不使用类似 churn_in_three_months 而不是 have_churned

快照的数量和频率将取决于数据集。总的来说,最终数据集应该代表变量所取的所有可能值。如果您有 month 列,则每月至少需要一个快照。您还必须查看最终数据集中变量的分布,并估计采样是否正确。

最后一点:如果您使用我在此处描述的策略,您应该谨慎使用您将使用的评估指标。事实上,假设您预测 churn_in_three_months=True 但在训练数据集中 churn_in_three_months=False。如果客户真的在三个月零一周后流失,这仍然是一个糟糕的预测吗?

关于machine-learning - 预测一段时间内的客户流失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64237069/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com