gpt4 book ai didi

machine-learning - 对与另一个较小数据集类似的数据集中的实例进行分类的算法,其中这个较小的数据集代表单个类

转载 作者:行者123 更新时间:2023-11-30 08:34:36 24 4
gpt4 key购买 nike

我有一个表示二进制类实例的数据集。这里的问题在于,只有正面类别的实例,而我没有负面类别的实例。或者更确切地说,我想从负面中提取更接近正面的内容。

为了更具体,假设我们拥有从我们商店购买商品并在当时或稍后自愿索要成员(member)卡的人的数据。撇开隐私问题不谈(这只是一个例子),我们有不同的属性,如年龄、邮政编码等。

按照我们的示例,另一组客户是未申请该卡的客户。

我们想要的是找到与第一组中申请忠诚卡的人最相似的子集,以便我们可以向他们发送申请忠诚度计划的报价。

这不完全是一个分类问题,因为我们试图从“负数”组中获取实例。

这并不完全是集群,集群通常是无监督的,因为我们已经知道一个集群(成员(member)卡客户)。

我考虑过使用 kNN。但我真的不知道我在这里有什么选择。

如果可能的话,我还想知道如何使用 weka 或其他 Java 库来实现这一点,以及是否应该规范化所有属性。

最佳答案

您可以使用异常检测算法。这些算法会告诉您您的新客户是否属于拥有成员(member)卡的客户群体(在这种情况下,他们将是异常情况)。

有两个基本想法(来 self 下面链接的文章):

  1. 您将正标记数据(持卡客户)的特征向量转换为较低维度的向量空间(例如通过使用 PCA)。然后,您可以计算转换后的数据的概率分布,并确定新客户是否属于相同的统计分布。您还可以计算新客户端到转换数据质心的距离,并使用分布的标准差来确定它是否仍然足够接近

  2. 机器学习方法:您可以使用卡数据在客户端上训练自动编码器网络。自动编码器的架构存在瓶颈。它将输入数据压缩为具有较低维度的新特征向量,然后尝试从该压缩向量重建输入数据。如果训练正确完成,与持卡客户数据集相似的输入数据的重构误差应该小于与其不相似的输入数据(希望这些是不想要卡)。

请先查看本教程:https://towardsdatascience.com/how-to-use-machine-learning-for-anomaly-detection-and-condition-monitoring-6742f82900d7

这两种方法都需要首先标准化属性。

关于machine-learning - 对与另一个较小数据集类似的数据集中的实例进行分类的算法,其中这个较小的数据集代表单个类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56255659/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com