gpt4 book ai didi

Python/ML : Which methods to use for Multiclass Classification for Product Categorization?

转载 作者:行者123 更新时间:2023-12-03 17:01:22 25 4
gpt4 key购买 nike

在泡菜...

我有一个包含 >100,000 个观察值的数据集;数据集的列包括 客户 ID , 供应商 ID , 产品编号 CatNMap .这是它的样子:

enter image description here

正如您所看到的,前 3 列(CustomerID、VendorID、ProductID)中表示的值表示唯一的数字映射值,如果在 x,y 平面上表示将毫无意义(这消除了许多分类方法的使用);最后一列包含由客户分配的类别的字符串。现在,这是我不明白并且不确定如何处理的部分......

目标:是预测 CatNMap future 对客户的值(value),但是在我看来,我在这里拥有的功能没有用,是真的吗?现在,如果是,我可以使用什么方法作为 CatNMap 列有 >7,000 个唯一值;此外,如果让我们说对于同一产品,不同客户分配了 2 个或更多不同类别,那么任何方法将如何处理对 future 项目的分类?我需要为此实现 NN 吗?

感谢所有的答案!

最佳答案

据我了解,您的目标是预测 CatNMap (您的输出数据)基于前 3 列(您的输入数据作为特征)。

正如你之前所说, ( CustomerID, VendorID, ProductID ) 是 3 categorical variables ,这意味着它们可能具有的值(value)与数量无关,而是与类别有关。所以两个连续的值可能与它们的实际含义无关。在我看来,您的输出 CatNMap 也会发生同样的情况.

话虽如此,有几种方法可以处理分类变量。
根据我的经验,对于您的问题,我会尝试 One Hot Encoding适用于您的所有数据 ( CustomerID, VendorID, ProductID, CatNMap )。更重要的是,如果你发现它可能,也许值得一试使用 embeddingsProductID, CatNMap而不是 OneHotEncoding。

至于使用哪种算法,绝对值得一试,训练随机森林和多层感知器模型,并在一些调整后进行比较。

我找到了 this guide在您可以看到一些示例的地方很有用,但还有许多其他资源可以处理此主题。
你也应该看看this .

关于Python/ML : Which methods to use for Multiclass Classification for Product Categorization?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60176912/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com