gpt4 book ai didi

python - 使用 pandas `get_dummies` 与 `drop_first=True` 时如何对齐训练和测试集?

转载 作者:行者123 更新时间:2023-11-30 09:44:36 29 4
gpt4 key购买 nike

我有一个来自电信公司的数据集,其中有很多分类特征。我使用 pandas.get_dummies 方法将它们转换为带有 drop_first=True 选项的热编码格式。现在我如何使用预测函数,测试输入数据需要以相同的方式进行编码,因为 drop_first=True 选项也删除了一些列,我如何确保以类似的方式进行编码。

编码前的数据集形状:(7043, 21)编码后的数据集形状:(7043, 31)

最佳答案

使用drop_first=True时,您有两个选择:

  1. 在分割训练集和测试集的数据之前执行one-hot编码。 (或者合并数据集,进行one-hot编码,再次分割数据集)。

  2. 在 one-hot 编码后对齐数据集:内部联接会删除其中一个集合中不存在的特征(无论如何它们都是无用的)。 train, test = train.align(test, join='inner', axis=1)

您(正确地)注意到方法 2 可能不会达到您的预期,因为您使用的是 drop_first=True。所以你只剩下方法1了。

关于python - 使用 pandas `get_dummies` 与 `drop_first=True` 时如何对齐训练和测试集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54145226/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com