gpt4 book ai didi

machine-learning - 选择分类算法对名义数据和数值数据的混合进行分类?

转载 作者:行者123 更新时间:2023-11-30 08:29:54 25 4
gpt4 key购买 nike

我有一个包含大约 100,000 条关于客户购买模式的记录的数据集。数据集包含

  • 年龄(从 2 到 120 的连续值),但我还计划按年龄范围进行分类。
  • 性别(0 或 1)
  • 地址(只能是六种类型或者我也可以用1到6的数字来表示)
  • 偏好商店(只能来自 7 家商店),这是我的类(class)问题。

所以我的问题是根据顾客的年龄、性别和位置对偏好店进行分类和预测。我尝试过使用朴素树和决策树,但它们的分类精度有点低。

我也在考虑逻辑回归,但我不确定性别和地址等离散值。但是,我也假设 SVM 具有一些内核技巧,但尚未尝试。

那么您建议使用哪种机器学习算法来提高这些功能的准确性。

最佳答案

问题在于,您以连续的尺度表示名义变量,这在您使用机器学习方法时在类之间强加了(虚假的)序数关系。例如,如果将地址编码为六个可能的整数之一,则地址 1 距离地址 2 的距离比距离地址 3、4、5、6 的距离更近。当您尝试学习任何东西时,这都会导致问题。

相反,请将 6 值分类变量转换为 6 个二元变量,每个分类值一个。然后,您的原始功能将产生六个功能,其中只有一个功能会打开。另外,请将年龄保留为整数值,因为将其分类会丢失信息。

至于方法,它不太可能产生太大的影响(至少在最初是这样)。选择对您来说更容易实现的那个。但是,请确保在测试集上运行之前在开发集上运行某种交叉验证参数选择,因为所有算法都具有会极大影响学习准确性的参数。

关于machine-learning - 选择分类算法对名义数据和数值数据的混合进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14274771/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com