gpt4 book ai didi

python - One-hot编码后的预测

转载 作者:行者123 更新时间:2023-11-28 22:12:32 27 4
gpt4 key购买 nike

我正在尝试使用示例数据框:

data = [['Alex','USA',0],['Bob','India',1],['Clarke','SriLanka',0]]

df = pd.DataFrame(data,columns=['Name','Country','Traget'])

现在,我使用 get_dummies 将字符串列转换为整数:

column_names=['Name','Country']  

one_hot = pd.get_dummies(df[column_names])

转换后的列为:Age,Name_Alex,Name_Bob,Name_Clarke,Country_India,Country_SriLanka,Country_USA

切片数据。

x=df[["Name_Alex","Name_Bob","Name_Clarke","Country_India","Country_SriLanka","Country_USA"]].values  

y=df['Age'].values

在训练和测试中拆分数据集

from sklearn.cross_validation import train_test_split

x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=float(0.5),random_state=0)

逻辑回归

from sklearn.linear_model import LogisticRegression

logreg = LogisticRegression()

logreg.fit(x_train, y_train)

现在,模型已经训练好了。

对于预测,假设我想通过给出“名称”和“国家/地区”来预测“目标”。
喜欢:[“亚历克斯”,“美国”].

预测。

如果我用这个:

logreg.predict([["Alex","USA"]).    

显然这是行不通的。

问题1)在训练过程中应用one-hot编码后如何测试预测?

问题2)如何对仅包含“Name”和“Country”的示例csv文件进行预测?

最佳答案

我建议您使用 sklearn 标签编码器和一个热编码器包而不是 pd.get_dummies。

一旦您初始化标签编码器和每个特征一个热编码器,然后将其保存在某个地方,这样当您想要对数据进行预测时,您可以轻松导入保存的标签编码器和一个热编码器并再次编码您的特征。

通过这种方式,您可以使用与制作训练集时相同的方式再次对特征进行编码。

下面是我用来保存编码器的代码:

labelencoder_dict = {}
onehotencoder_dict = {}
X_train = None
for i in range(0, X.shape[1]):
label_encoder = LabelEncoder()
labelencoder_dict[i] = label_encoder
feature = label_encoder.fit_transform(X[:,i])
feature = feature.reshape(X.shape[0], 1)
onehot_encoder = OneHotEncoder(sparse=False)
feature = onehot_encoder.fit_transform(feature)
onehotencoder_dict[i] = onehot_encoder
if X_train is None:
X_train = feature
else:
X_train = np.concatenate((X_train, feature), axis=1)

现在我保存这个 onehotencoder_dict 和标签 encoder_dict 并在以后使用它进行编码。

def getEncoded(test_data,labelencoder_dict,onehotencoder_dict):
test_encoded_x = None
for i in range(0,test_data.shape[1]):
label_encoder = labelencoder_dict[i]
feature = label_encoder.transform(test_data[:,i])
feature = feature.reshape(test_data.shape[0], 1)
onehot_encoder = onehotencoder_dict[i]
feature = onehot_encoder.transform(feature)
if test_encoded_x is None:
test_encoded_x = feature
else:
test_encoded_x = np.concatenate((test_encoded_x, feature), axis=1)
return test_encoded_x

关于python - One-hot编码后的预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54786266/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com