gpt4 book ai didi

python - 使用 sklearn 预处理 Label Binarizer 的一种热编码

转载 作者:太空宇宙 更新时间:2023-11-04 02:02:59 25 4
gpt4 key购买 nike

我正在尝试使用 sklearn.preprocessing.LabelBinarizer() 创建仅包含两列标签的单热编码,即我只想对两组对象进行分类。在这种情况下,当我使用 fit(range(0,2)) 时,它只返回一个一维数组,而不是 2x1。这很好,但是当我想在 Tensorflow 中使用它们时,为了尺寸一致性,形状实际上应该是 (2,1)。请告诉我如何解决它。

代码如下:

from sklearn import preprocessing
lb = preprocessing.LabelBinarizer()
lb.fit(range(0, 3))

调用lb.transform([1, 0]),结果为:

[[0 1 0]
[1 0 0]]

而当我们将 3 更改为 2 时,即 lb.fit(range(0, 2)),结果将是

[[1]
[0]]

代替

[[0 1]
[1 0]]

这将在与具有 n 维度的数组一致工作的算法中产生问题。有什么办法可以解决这个问题吗?

最佳答案

labelBinarizer() 的用途根据 documentation

Binarize labels in a one-vs-all fashion

Several regression and binary classification algorithms are available in scikit-learn. A simple way to extend these algorithms to the multi-class classification case is to use > the so-called one-vs-all scheme.

如果您的数据只有两种类型的标签,那么您可以直接将其提供给二元分类器。因此,一列足以以 One-Vs-Rest 方式捕获两个类。

二进制目标转换为列向量

>>> lb = preprocessing.LabelBinarizer()
>>> lb.fit_transform(['yes', 'no', 'no', 'yes'])
array([[1],
[0],
[0],
[1]])

如果您的目的只是创建单热编码,请使用以下方法。

from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()
>>> enc.fit_transform([['yes'], ['no'], ['no'], ['yes']]).toarray()
array([[0., 1.],
[1., 0.],
[1., 0.],
[0., 1.]])

希望这能澄清您的问题,即为什么 Sklearn labelBinarizer() 不将 2 类数据转换为两列输出。

关于python - 使用 sklearn 预处理 Label Binarizer 的一种热编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55359235/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com