gpt4 book ai didi

machine-learning - 字符串作为决策树/随机森林中的特征

转载 作者:行者123 更新时间:2023-11-30 08:33:19 25 4
gpt4 key购买 nike

我是机器学习新手!

现在我正在做一些关于决策树/随机森林应用的问题。我正在尝试解决一个以数字和字符串(例如国家/地区名称)为特征的问题。现在,scikit-learn 库仅接受数字作为参数,但我想注入(inject)字符串以及它们携带大量知识。

我该如何处理这种情况,我可以通过某种机制将字符串转换为数字,例如Python中的散列。但我想知道在决策树问题中如何处理字符串的最佳实践。

最佳答案

1) 如何添加“字符串”作为特征。

很少有算法可以原生处理任何形式的字符串,决策树不是其中之一。您必须将它们转换为决策树知道的东西(通常是数字或分类变量)。

如何将它们转换为特征:这很大程度上取决于字符串的性质。如果字符串是句子,您可以使用类似 bag of words 的内容。将每个单词映射到数字特征。有许多不同的策略来确定使用什么数值,但仅使用 0/1 表示不存在/存在通常是一个不错的基线。

对于国家/地区来说,这没有意义,因为您以错误的方式表示您的功能。国家更类似于分类变量。只有 X 个国家,并且您必须具有 X 中的值(这可能不是严格绝对正确的,但这超出了重点)。 scikit-learn 不支持分类变量。您可以使用one-hot-encoding来“伪造”它,但它的工作效果可能不如完全支持分类变量的库。

请注意,仅仅因为国家/地区可以表示为类别并不意味着它是处理它们的最佳方式。这在很大程度上取决于您的数据是什么以及您正在做什么。如果不了解所有细节,没有人可以为您解答。

关于machine-learning - 字符串作为决策树/随机森林中的特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28709023/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com