gpt4 book ai didi

machine-learning - 在推荐系统中使用决策树

转载 作者:行者123 更新时间:2023-11-30 08:55:33 24 4
gpt4 key购买 nike

我有一个在列(年龄、性别、时间、日期、观看次数、点击次数)上进行训练的决策树,该决策树被分为两类 - 是或否 - 代表某项 X 的购买决策。使用这些值,我试图预测 1000 个样本(客户)的概率,这些样本看起来像 ('12','Male','9:30','Monday','10','3'),('50','女','10:40','星期日','50','6')…………我想要获得个人概率或分数,这将帮助我识别哪些客户最有可能购买该商品 X。因此,我希望能够对预测进行排序,并仅向 5 个想要购买的客户显示特定商品项目 X。我怎样才能做到这一点?决策树能达到目的吗?还有其他方法吗?我是机器学习新手,如有任何词汇错误,请原谅。

最佳答案

使用小样本集的决策树,肯定会遇到过拟合问题。特别是在决策的较低级别,您将拥有指数级更少的数据来训练您的决策边界。您的数据集应该有比类别数量多得多的样本,并且每个类别都有足够的样本。

说到决策边界,请确保您了解如何处理每个维度的数据类型。例如,“性别”是分类数据,其中“年龄”、“一天中的时间”等是实值输入(离散/连续)。因此,树的不同部分需要不同的配方。否则,您的模型最终可能会将 9:30、9:31、9:32... 作为单独的类进行处理。

尝试其他一些算法,从简单的算法开始,例如 k 最近邻 (KNN)。有一个验证集来测试每个算法。使用 Matlab(或类似软件),您可以使用库快速尝试不同的方法,看看哪一种最有效。这里没有足够的信息来向您推荐一些非常具体的东西。另外,

我建议你也尝试一下 KNN。 KNN 能够捕获数据中的亲和性。假设,20 岁左右的人在晚上点击产品页面约 5 次后购买了 X 产品。 KNN 将能够告诉您每个新客户与购买该商品的客户的关系有多密切。基于此,您可以选择前 5 个。非常容易实现,并且可以作为更复杂方法的基准。

(假设浏览量和点击量是指每个客户对产品X的点击数和浏览量)

关于machine-learning - 在推荐系统中使用决策树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22878408/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com