gpt4 book ai didi

python - 带有可能看不见的数据的标签编码

转载 作者:行者123 更新时间:2023-12-04 08:45:53 26 4
gpt4 key购买 nike

我有一个包含多列的数据框,需要进行标签编码。
问题是测试组将来可能包含看不见的数据(类)。
我希望将这些类标记为它们自己的一组,以便在预测新数据集时代码不会崩溃。
我尝试使用 sklearn labelencoder 但收到了。

ValueError: y contains previously unseen labels: 'rat'
我还需要编码器是可重用的,这意味着我将能够使用相同的值对 future 的数据集进行编码。
有没有办法做到这一点?

最佳答案

我多次面临同样的困难。
我的解决方法有点贵

le=LabelEncoder()
le.fit(trainDf)

le.classes_=np.array([-99999] + le.classes_.tolist())
testDf[~testDf.isin(le.classes_)]=-99999 #anything that is not used in your dataframe and the same datatype (here int64)

le.transform(testDf)

关于python - 带有可能看不见的数据的标签编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64332071/

26 4 0