python - 用于分类功能的LabelEncoder？-6ren

python - 用于分类功能的LabelEncoder？

转载作者：行者123 更新时间：2023-12-03 15:21:18

27

4

这可能是一个初学者的问题，但是我已经看到很多人使用LabelEncoder()用常规替换类别变量。很多人一次通过传递多列来使用此功能，但是我对某些功能中的错误序数及其对模型的影响会产生疑问。这是一个例子:

输入

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

a = pd.DataFrame(['High','Low','Low','Medium'])
le = LabelEncoder()
le.fit_transform(a)

输出

array([0, 1, 1, 2], dtype=int64)

如您所见，序数值未正确映射，因为我的LabelEncoder仅关心列/数组中的顺序(应该为High = 1，Med = 2，Low = 3，反之亦然)。错误的严重映射会如何影响模型？除了OrdinalEncoder()之外，还有其他简便的方法可以正确映射这些值吗？

最佳答案

TL; DR :使用 LabelEncoder 对任何类型的特征进行序数编码是一个坏主意!

实际上，这在文档中有明确说明，其中提到，顾名思义，该编码方法旨在对标签进行编码:

This transformer should be used to encode target values, i.e. y, and not the input X.

正如您在问题中正确指出的那样，将 ordinal feature的固有序数映射到错误的比例将对模型的性能产生非常负面的影响(即与特征的相关性成比例)。同样， categorical feature也是如此，只是原始特征没有序数。
一种思考的直观方式是 decision tree设置其边界。在训练过程中，决策树将学习要在每个节点上设置的最佳功能以及最佳阈值，根据这些值，看不见的样本将沿着一个分支或另一个分支前进。
如果我们使用简单的 LabelEncoder编码序数特征，则可能会导致某个特征说 1表示温暖， 2可能转换为热，而 0表示沸腾。在这种情况下，结果最终将是一棵不必要的大量拆分树，因此，对于更简单的建模而言，其复杂性将大大提高。
相反，正确的方法是使用 OrdinalEncoder ，并为序数特征定义适当的映射方案。或在具有分类功能的情况下，我们应该查看 OneHotEncoder 或 Category Encoders中可用的各种编码器。

尽管实际上了解到为什么这是一个坏主意，将比仅凭文字更直观。
让我们使用一个简单的示例来说明上述内容，该示例由两个序数功能组成，其中包含一个范围，该范围包括学生准备考试的时数和所有以前作业的平均成绩，以及一个目标变量，指示考试是否已过或不。我已经将数据框的列定义为 pd.Categorical:

df = pd.DataFrame(
        {'Hours of dedication': pd.Categorical(
              values =  ['25-30', '20-25', '5-10', '5-10', '40-45', 
                         '0-5', '15-20', '20-25', '30-35', '5-10',
                         '10-15', '45-50', '20-25'],
              categories=['0-5', '5-10', '10-15', '15-20', 
                          '20-25', '25-30','30-35','40-45', '45-50']),

         'Assignments avg grade': pd.Categorical(
             values =  ['B', 'C', 'F', 'C', 'B', 
                        'D', 'C', 'A', 'B', 'B', 
                        'B', 'A', 'D'],
             categories=['F', 'D', 'C', 'B','A']),

         'Result': pd.Categorical(
             values = ['Pass', 'Pass', 'Fail', 'Fail', 'Pass', 
                       'Fail', 'Fail','Pass','Pass', 'Fail', 
                       'Fail', 'Pass', 'Pass'], 
             categories=['Fail', 'Pass'])
        }
    )

如前所述，将类别列定义为 Pandas 的类别的好处是我们可以在其类别之间建立顺序。这允许基于已建立的顺序而不是词法排序更快地进行排序。它也可以用作一种简单的方法来根据其顺序获取不同类别的代码。
因此，我们将使用的数据帧如下所示:

print(df.head())

  Hours_of_dedication   Assignments_avg_grade   Result
0               20-25                       B     Pass
1               20-25                       C     Pass
2                5-10                       F     Fail
3                5-10                       C     Fail
4               40-45                       B     Pass
5                 0-5                       D     Fail
6               15-20                       C     Fail
7               20-25                       A     Pass
8               30-35                       B     Pass
9                5-10                       B     Fail

可以通过以下方式获得相应的类别代码:

X = df.apply(lambda x: x.cat.codes)
X.head()

   Hours_of_dedication   Assignments_avg_grade   Result
0                    4                       3        1
1                    4                       2        1
2                    1                       0        0
3                    1                       2        0
4                    7                       3        1
5                    0                       1        0
6                    3                       2        0
7                    4                       4        1
8                    6                       3        1
9                    1                       3        0

现在，让我们拟合 DecisionTreeClassifier ，看看树如何定义拆分:

from sklearn import tree

dt = tree.DecisionTreeClassifier()
y = X.pop('Result')
dt.fit(X, y)

我们可以使用 plot_tree 可视化树结构:

t = tree.plot_tree(dt, 
                   feature_names = X.columns,
                   class_names=["Fail", "Pass"],
                   filled = True,
                   label='all',
                   rounded=True)

这就是全部？？好吧... 是的! 我实际上已经以某种方式设置功能，使得“奉献时数”功能与是否通过考试之间存在这种简单而明显的关系，这清楚地表明，该问题应该非常容易建模。

现在，让我们尝试通过使用我们可以通过 LabelEncoder获得的编码方案直接编码所有特征来进行相同操作，因此不考虑特征的实际顺序，而只是随机分配一个值:

df_wrong = df.copy()
df_wrong['Hours_of_dedication'].cat.set_categories(
             ['0-5','40-45', '25-30', '10-15', '5-10', '45-50','15-20', 
              '20-25','30-35'], inplace=True)
df_wrong['Assignments_avg_grade'].cat.set_categories(
             ['A', 'C', 'F', 'D', 'B'], inplace=True)

rcParams['figure.figsize'] = 14,18
X_wrong = df_wrong.drop(['Result'],1).apply(lambda x: x.cat.codes)
y = df_wrong.Result

dt_wrong = tree.DecisionTreeClassifier()
dt_wrong.fit(X_wrong, y)

t = tree.plot_tree(dt_wrong, 
                   feature_names = X_wrong.columns,
                   class_names=["Fail", "Pass"],
                   filled = True,
                   label='all',
                   rounded=True)

不出所料，树结构比我们要建模的简单问题复杂得多。为了使树正确地预测所有训练样本，它已扩展到单个节点就足够的 4深度为止。
这意味着分类器可能会过拟合，因为我们正在极大地增加复杂性。通过修剪树并调整必要的参数以防止过度拟合，我们也无法解决问题，因为我们通过错误地编码特征而添加了过多噪声。
因此，总而言之，一旦对特征进行编码，保留特征的普遍性至关重要，否则如本例所示，我们将失去其所有可预测的功能，而只会给模型增加噪声。

关于python - 用于分类功能的LabelEncoder？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61217713/

27

4

0

文章推荐： julia - Julia 中的最大数组长度

文章推荐： SQLite 和版本控制系统

文章推荐： c# - 使用不同的参数并行运行相同的代码多次

python - LabelEncoder() 对于相同的输入返回不同的值？
我使用 LabelEncoder() 将分类数据转换为数值数据。我有一个数据集，如下所示: ['x','s','n','t','p','f','c','n','k','e','e','s','s','
python - Inverse_transform方法(LabelEncoder)
您可以在下面找到我在互联网上找到的用于构建简单神经网络的代码。一切正常。我对 y 标签进行了编码，这些是我得到的预测: 2 0 1 2 1 2 2 0 2 1 0 0 0 1 1 1 1 1 1 1
python - LabelEncoder() 不会存储参数？
LabelEncoder 不会“记住”参数。当我用它拟合和转换数据然后询问参数时，我得到的只是{}。这使得不可能在新数据上重新使用编码器。例子: from sklearn.preprocessing
python - LabelEncoder 将不同的值编码为相同的值
摘要:Sklearn 的 LabelEncoder 将不同的值编码为相同的值。 encoder.fit(data) 和 data_encoded =encoder.transform(data) 可以
python - LabelEncoder - 在模型上反转和使用分类数据
我正在做一个预测项目(为了好玩)，基本上我从 nltk 中提取了男性和女性的名字，将名字标记为“男性”或“女性”，然后获取每个名字的最后一个字母，最后使用不同的机器学习算法根据最后一个字母训练和预测性
python - 使用 LabelEncoder 转换数据
我编写了这个函数来使用 LabelEncoder 转换分类特征 #convert columns to dummies with LabelEncoder cols = ['ToolType', 'T
python - LabelEncoder().fit_transform 给我负值？
嘿，我的数据集中的“城市”列中有不同的城市名称。我很想使用 LabelEncoder() 对其进行编码。然而，我得到了非常令人沮丧的负值结果 df['city_enc'] = LabelEncode
python - LabelEncoder().fit_transform 给我负值？
嘿，我的数据集中的“城市”列中有不同的城市名称。我很想使用 LabelEncoder() 对其进行编码。然而，我得到了非常令人沮丧的负值结果 df['city_enc'] = LabelEncode
python - 查看 LabelEncoder 的映射
我遇到有关 LabelEncoder 的问题。我将其应用到数据集，如下所示: data_set1 = data_set.apply(LabelEncoder().fit_transform) ...并
python - 有没有方法保存 Labelencoder 的字典以进行推理
我正在尝试建立一个推理管道。它由两部分组成。使用前几年的一些表格订单元数据进行每月 ML 模型训练，并使用当天的新订单进行每日推理预测。我想在我的模型中包含几个字符串分类列，我使用 labelenco
python - NameError:未定义名称“LabelEncoder”
Closed. This question is off-topic。它当前不接受答案。
python - 立即在所有列上运行 sklearn labelencoder
Image of ull error 我正在尝试在对象类型的所有列上运行LabelEncoder。这是我编写的代码，但它引发了此错误: TypeError: '<' not supported bet
python - LabelEncoder fit_transform() 函数中的问题
尝试执行以下代码时出现以下错误。 class LabelOneHotEncoder(): def __init__(self): self.ohe = OneHotEncode
python - Sklearn Labelencoder 在编码新数据帧时保留编码值
我正在编写一个脚本，该脚本使用“局部异常值因子”算法进行“新颖性检测”。在这种情况下，我们需要在进行预测之前“拟合”“干净/训练”数据框。为了使算法正常工作，我们需要对数据帧中的值进行编码，例如将“v
python - sklearn LabelEncoder 中的标签不一致？
我在数据帧上应用了 LabelEncoder()，它返回以下内容: order/new_cart 有不同的标签编码数字，如 70、64、71 等这是标签不一致，还是我哪里做错了什么？最佳答案 La
python - 如何加速 LabelEncoder 将分类变量重新编码为整数
我有一个很大的 csv，每行有两个字符串，格式如下: g,k a,h c,i j,e d,i i,h b,b d,d i,a d,h 我阅读了前两列并将字符串重新编码为整数，如下所示: import
python - sklearn.LabelEncoder 具有从未见过的值
如果 sklearn.LabelEncoder已在训练集上拟合，如果在测试集上使用时遇到新值，它可能会中断。对此我能想出的唯一解决方案是将测试集中的所有新内容(即不属于任何现有类)映射到 "" ，然
python - LabelEncoder - 适合元组列表 - y 应该是一维数组
我想使用 sklearn.preprocessing.LabelEncoder 对元组列表进行标签编码，如: [(4,5), (6, 7), (1, 1), (6, 7), ... ] 这样每个元组
python - labelencoder 和 OneHotEncoder 的值错误
我正在尝试将分类字符串列转换为几个虚拟变量二进制列，但出现值错误。代码如下: import sys, os import numpy as np import matplotlib.pyplot a
python - 在数据帧的列上使用 sklearn 的 LabelEncoder
如果我有一个数据框，请说 df，如果 df["levels"] = pd.Series(["low", "low", "med", "low", "med", "high"]) 有没有办法将其更改为:

首页

博学

6Ren·AI

商城

python - 用于分类功能的LabelEncoder？