gpt4 book ai didi

machine-learning - 点击收入预测模型

转载 作者:行者123 更新时间:2023-11-30 09:21:18 25 4
gpt4 key购买 nike

我正在尝试构建一个电子商务模型,该模型可以预测通过在线营销 channel (例如谷歌购物)获得的单次点击的收入。点击的目标是产品详细信息页面,因此我的培训数据包含产品详细信息,例如:价格、交货时间、类别、制造商。每一次历史点击也都会带来收入。问题是超过 95% 的点击次数收入为零。

历史数据如下所示:

click_id |制造商|类别 |交货时间 |价格|收入
1 |man1 |猫1 | 24 | 100 | 100 0
2 |man1 |猫1 | 24 | 100 | 100 0
3 |man1 |猫1 | 24 | 100 | 100 0
4 |man1 |猫1 | 24 | 100 | 100 120
5 |man2 |类别2 | 48 | 48 200 | 200 0

正如您所看到的,两个数据点有可能(并且很常见)具有完全相同的特征和目标变量(收入)的非常不同的值。例如,前 4 个数据点具有相同的特征,并且只有第 4 个数据点有收入。理想情况下,我的模型将在具有相同功能的测试示例中预测这 4 次点击的平均收入(即 30)。

在尝试应用模型之前,我的问题是关于数据表示的。我相信我有两个选择:

  • 将回归直接应用于点击数据(如上面的情况),并希望回归能够做出正确的结果。在这种情况下,回归误差最终会非常大,因此很难判断模型实际上有多好。
  • 尝试将多个数据点(点击次数)分组为一个点,以避免出现一些零 - 将具有相同特征的所有数据点分组并计算目标(收入)变量为 SUM(收入)/COUNT(点击次数)。通过这种方法,我的收入仍然有很多为零(只有很少点击次数的产品),有时会有数千次点击,但只提供一个数据点 - 这似乎不对。

非常欢迎任何有关如何处理此问题的建议。

最佳答案

由于 95% 的数据收入为零,您可能需要对记录进行一些操作,例如抽样。按照当前构建的方式,您的模型可以 100% 的时间预测“否”,并且准确率仍然为 95%。您需要针对您希望模型中出现的错误类型做出设计选择。您是否希望它“尽可能准确”,因为它错过了尽可能少的记录,错过了尽可能少的收入记录,或者避免将记录错误地分类为收入(如果它们实际上不是)(阅读有关类型的更多信息) 1 和 2 错误,如果你好奇的话)

您可以做出几个高级选择:

1) 您可能会对数据进行过度采样。如果您有大量记录并希望确保捕获创收功能,您可以复制这些记录或进行一些记录工程来创建与创收记录非常相似的“假”记录。这将增加您的模型捕获插入收入的因素的可能性,并且当您将其应用于实际数据时,它可能会过度重视这些特征

2) 您可以使用模型来预测概率,然后缩放概率。例如,您可能会查看您的模型,并说任何产生收入的可能性大于 25% 的事物实际上都是“积极”案例

3) 您可以首先尝试对数据进行聚类,如上所述,然后尝试对“求和”值(而不是单个记录)运行分类算法。

4) 是否有一些分割的命中率 >5%?也许可以在这些子集上建立一个模型。

这些都是模型设计选择,没有正确/错误的答案 - 这仅取决于您想要实现的目标。

根据您的回复进行编辑回归可能会受到异常值的显着影响,因此我在尝试使用回归来预测美元金额时会有点小心。大多数变量很可能具有较小的系数,并且截距将反射(reflect)平均支出。您应该记住的另一件事是交互术语。例如,如果您是男性,您可能更有可能购买,如果您年龄在 25-30 岁,则购买的可能性更大,但同时是男性和 25-30 岁会产生巨大的影响。

我提出分类的原因是您可以尝试进行分类以查看谁可能购买,然后应用美元金额。这种方法会阻止您每次交易的金额基本相同且非常小。

关于machine-learning - 点击收入预测模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37120693/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com