gpt4 book ai didi

machine-learning - 如何处理二元分类问题的多标签分类特征?

转载 作者:行者123 更新时间:2023-11-30 09:40:34 25 4
gpt4 key购买 nike

我有这样的数据集:

   profile     category  target
0 1 [5, 10] 1
1 2 [1] 0
2 3 [23, 5000] 1
3 4 [700, 4500] 0

如何处理类别功能,该表可能还有其他附加功能。一种热编码会导致消耗太多空间,因为行数约为 1000 万行。任何建议都会有帮助。

最佳答案

我的想法是分割这个数组 into new columns :

这将导致以下数据框:

   profile     0    1  target
0 1 5 10 1
1 2 1 0
2 3 23 5000 1
3 4 700 4500 0

在下一步中,您可以根据 this 调整获取功能的类别(如果配置文件具有此类别,则填充 1)。 ,这将导致以下数据框:

   profile     1  ...  5  ... 10 ... 23 target
0 1 0 1 0 0 1
1 2 1 0 0 0 0
2 3 0 0 0 1 1
3 4 0 0 0 0 0

你将把每个类别作为一个特征,这可以帮助你(这类似于文本分类问题)。然后你可以使用一些降维技术,例如 pca

通过这种方法,您可以尊重类别行为,并且可以在以后使用一些数学技巧来减少维度。

关于machine-learning - 如何处理二元分类问题的多标签分类特征?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58947565/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com