gpt4 book ai didi

Python - 决策树和处理独特的标签/特征

转载 作者:行者123 更新时间:2023-11-30 08:52:19 26 4
gpt4 key购买 nike

不确定标题是否完全有意义,对此感到抱歉。我是机器学习新手,正在使用 Scikit 和决策树。

这就是我想做的;我想获取所有输入并包含一个独特的功能,即客户端 ID。现在,客户端 ID 是唯一的,无法以决策树分析中特征的正常方式进行总结。现在发生的情况是,树将客户端 ID 视为任何其他整数值,然后对其进行分支,例如,客户端 ID 小于 430 的路径与超过 430 的客户端 ID 的路径不同。这是不正确的,也不是我想要的去做。我想做的是让决策树明白特定领域不能以这种方式分析,每个客户都会有自己的分支。这对于决策树来说可能吗?

我确实有一些解决方法,其中之一是为每个客户开发独特的决策树,但培训这将是一场噩梦。我还可以采取另一种解决方法,假设我们有 800 个客户端,我会创建 800 个带有位字段的功能,但这也很疯狂。

最佳答案

这是机器学习中相当常见的问题。在任何情况下,机器学习功能对于每个实例来说都不可能是唯一的。直觉上这是有道理的;如果算法无法从该特征中推断出来,那么它就不会学习任何东西。

您可以做的就是在传递其余特征之前从决策树中分离出该信息,并在做出后重新合并 ID 和预测。

我强烈反对对特征向量进行任何类型的操作以包含任何形式的 ID。特征应该只是算法用来做出决策的东西。不要向它提供您不希望它使用的信息。您希望避免使用 ID 作为特征是正确的,因为(很可能)ID 与您尝试预测的内容无关。

如果您确实想要单独的模型(并且为每个用户提供足够的数据来制作它们),那么它并不像您想象的那么痛苦。您可以使用 Scikit 的 model saving feature这个答案在 saving pickles to MySQL轻松创建和存储个性化模型。除非您拥有大量用户,否则创建个性化决策树不会花费很长时间。

关于Python - 决策树和处理独特的标签/特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42373494/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com