gpt4 book ai didi

python - 如何在训练/验证/测试中对齐 pandas get_dummies?

转载 作者:太空宇宙 更新时间:2023-11-04 08:26:24 28 4
gpt4 key购买 nike

我有 3 组数据(训练、验证和测试),当我运行时:

    training_x = pd.get_dummies(training_x, columns=['a', 'b', 'c'])

它给了我一定数量的特征。但是当我在验证数据上运行它时,它给了我一个不同的数字和相同的测试。有没有什么方法可以对所有数据集进行标准化(我知道是错误的词),从而使特征数量保持一致?

最佳答案

如前所述,通常您应该在拆分前进行一次热编码。但是还有一个问题。有一天,您肯定想将经过训练的 ML 模型应用到自然环境中的数据。我的意思是数据,你以前没有见过,你需要对假人进行完全相同的转换,就像你训练模型时一样。那么你可能不得不处理两种情况。

  1. 是,新数据包含您的训练数据中没有的类别,并且
  2. 是相反的,一个类别不再出现在你的数据集中,但你的模型已经用它训练过。在情况 1 中,您应该忽略该值,因为您的模型很可能无法处理它,而不是对其进行训练。在情况 2 中,您仍然应该生成这些空类别,以便在您要预测的数据中具有与训练集中相同的结构。请注意,pandas 方法不会为这些类别生成虚拟变量,因此无法保证您从预测数据中获得与训练数据相同的结构,因此您的模型很可能不适用于这些数据。

您可以通过使用与 get_dummies 等效的 sklearn 来解决这个问题(只需多做一点工作),它看起来像这样:

import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# create some example data
df= pd.DataFrame({'x': [1, 2, 3], 'y': [2, 4, 8]})

# create a one hot encoder to create the dummies and fit it to the data
ohe= OneHotEncoder(handle_unknown='ignore', sparse=False)
ohe.fit(df[['x']])

# now let's simulate the two situations A and B
df.loc[1, 'x']= 1
df= df.append(dict(x=5, y=5), ignore_index=True)

# the actual feature generation is done in a separate step
tr=ohe.transform(df[['x']])

# if you need the columns in your existing data frame, you can glue them together
df2=pd.DataFrame(tr, columns=['oh1', 'oh2', 'oh3'], index=df.index)
result= pd.concat([df, df2], axis='columns')

使用 sklearn OneHotEncoder,您可以将类别的识别与实际的单热编码(虚拟对象的创建)分开。您还可以保存安装的一个热编码器,以便稍后在您的模型应用过程中应用它。请注意 handle_unknown 选项,它告诉 one hot 编码器,如果它以后会遇到未知的东西,它应该忽略它,而不是引发错误。

关于python - 如何在训练/验证/测试中对齐 pandas get_dummies?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56738267/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com