gpt4 book ai didi

machine-learning - 分类编码器遗漏级别

转载 作者:行者123 更新时间:2023-11-30 09:32:58 25 4
gpt4 key购买 nike

import category_encoders as ce
ord_Ce = ce.ordinal.OrdinalEncoder()
ord_Ce.fit_transform(pd.DataFrame([2, np.nan, 3]).astype(object))

产生2->1, np.nan->0, 3->3编码。为什么编码时漏掉了2。在我看来,3 应该被编码器编码为 2。关于为什么会出现这种行为有什么说明吗?

最佳答案

浏览source code揭示了在ordinal_encoding函数中,枚举了类别的数量(总共3个类别,从1开始),并且这些数字也用于编码

categories_dict = {x: i + 1 for i, x in enumerate(categories)}
X[str(col) + '_tmp'] = X[col].map(lambda x: categories_dict.get(x))

之后缺失值将被估算为 0。

总结:np.nan 的类别 2 在后处理步骤中转换为 0

关于machine-learning - 分类编码器遗漏级别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51152314/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com