gpt4 book ai didi

machine-learning - 如何利用字符串特征进行分类?

转载 作者:行者123 更新时间:2023-11-30 08:51:14 32 4
gpt4 key购买 nike

我正在开发一个广告点击推荐系统,在该系统中我必须预测用户是否会点击广告。我总共有 98 个功能,其中既有用户功能又有广告功能。一些对于预测非常重要的特征具有像这样的字符串值。

**FEATURE**
Inakdtive Kunmden
Stammkfunden
Stammkdunden
Stammkfunden
guteg Quartialskunden
gutes Quartialskunden
guteg Quartialskunden
gutes Quartialskunden

整个数据列中有14个这样的不同字符串值。我的模型无法将字符串值作为输入,因此我必须将它们转换为分类 int 值。我不知道如何做到这一点并使这些功能变得有用。我正在使用 K-MEANS 聚类和随机森林算法。

最佳答案

将字符串值列表转换为分类整数时要小心,因为模型可能会将整数解释为具有数值意义,但实际上可能并非如此。

例如,如果:

'Dog'=1,'Cat'=2,'Horse'=3,'Mouse'=4,'Human'=5

那么聚类算法中的距离度量就会认为人类更像老鼠而不是狗。将它们转换为 14 个二进制值通常更有用,例如

转动这个:

'Dog'
'Cat'
'Human'
'Mouse'
'Dog'

进入此:

'Dog'  'Cat'  'Mouse'  'Human'
1 0 0 0
0 1 0 0
0 0 0 1
0 0 1 0
1 0 0 0

不是这个:

'Species'
1
2
5
4
1

但是,如果数据将成为您要分类的“目标”而不是数据“特征”,则可以在 SciKit-Learn 的大多数多分类算法中将它们保留为整数。

关于machine-learning - 如何利用字符串特征进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27183625/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com