gpt4 book ai didi

machine-learning - 回归分析中的分类特征数据和有序特征数据差异?

转载 作者:行者123 更新时间:2023-11-30 08:33:43 27 4
gpt4 key购买 nike

在进行回归分析时,我试图完全理解分类数据和序数数据之间的差异。目前,已经明确的是:

分类特征和数据示例:
颜色:红、白、黑
为什么分类:red < white < black逻辑上不正确

序数特征和数据示例:
状况:旧的、翻新的、新的
为什么序号:old < renovated < new逻辑上正确

分类到数字和序数到数字的编码方法:
分类数据的 One-Hot 编码
序数数据的任意数字

分类示例:

data = {'color': ['blue', 'green', 'green', 'red']}

One-Hot编码后的数字格式:

   color_blue  color_green  color_red
0 1 0 0
1 0 1 0
2 0 1 0
3 0 0 1

序数示例:

data = {'con': ['old', 'new', 'new', 'renovated']}

使用映射后的数值格式:旧<翻新<新→0,1,2

0    0
1 2
2 2
3 1

根据我的数据,随着状况从“旧”变为"new",价格会上涨。数字中的“旧”被编码为“0”。数字中的"new"被编码为“2”。因此,随着状况的改善,价格也会上涨。正确。
现在让我们看看“颜色”功能。就我而言,不同的颜色也会影响价格。例如,“黑色”会比“白色”更贵。但从上面提到的分类数据的数字表示来看,我没有看到像“条件”功能那样日益增加的依赖性。这是否意味着如果使用 one-hot 编码,颜色的变化不会影响回归模型中的价格?如果无论如何都不影响价格,为什么要使用 one-hot 编码进行回归呢?能解释一下吗?


更新问题:
首先我介绍一下线性回归的公式: enter image description here
让我们看一下颜色的数据表示: enter image description here让我们使用两种数据表示的公式来预测第 1 件和第 2 件商品的价格:
单热编码:在这种情况下,不同颜色将存在不同的 theta,预测将是:

Price (1 item) = 0 + 20*1 + 50*0 + 100*0 = 20$  (thetas are assumed for example)
Price (2 item) = 0 + 20*0 + 50*1 + 100*0 = 50$ (thetas are assumed for example)

颜色的序数编码:在这种情况下,所有颜色都有共同的 theta,但乘数不同:

Price (1 item) = 0 + 20*10 = 200$  (theta assumed for example)
Price (2 item) = 0 + 20*20 = 400$ (theta assumed for example)

在我的模型中,价格为白色 < 红色 < 黑色。似乎这两种情况都是合乎逻辑的预测。用于序数和分类表示。因此,无论数据类型如何(分类或序数),我都可以使用任何编码进行回归?这种划分只是约定和面向软件的表示的问题,而不是回归逻辑本身的问题?

最佳答案

您会发现依赖性并未增加。正如您已经指出的那样,这种歧视的全部要点是颜色不是您可以有意义地放置在连续体上的特征。

one-hot编码使得软件分析这一维度非常方便。您拥有一组 bool (存在/不存在)特征,而不是具有列出的值的特征“颜色”。例如,上面的第 0 行具有 color_blue = true、color_green = false 和 color_red = false 的特征。

您获得的预测数据应将其中每一个显示为单独的维度。例如,color_blue 的存在可能值(value) 200 美元,而绿色的值(value)为 -100 美元。

总结:不要寻找穿过(不存在的)颜色轴的线性回归线;相反,寻找 color_* 因素,每种颜色一个。就您的分析算法而言,这些是完全独立的功能; “one-hot”编码(数字电路设计中的一个术语)只是我们处理这个问题的惯例。

这对你的理解有帮助吗?

2015 年 12 月 4 日 02:03 Z 编辑问题后:

不,您的假设不正确:这两种表示方式不仅仅是为了方便。颜色排序适用于此示例 - 因为效果恰好是所选编码的简洁线性函数。正如您的示例所示,您的更简单的编码假设白到红到黑的定价是线性进展的。当绿色、蓝色和棕色的价格都是 25 美元,稀有的黄色值(value) 500 美元,而透明的价格降低了 1,000 美元时,你会怎么做?

另外,您如何提前知道黑色比白色更有值(value),反过来又比红色更有值(value)?

考虑基于小学学区的房价情况,该地区有 50 个学区。如果您使用数字编码(学区编号、字母顺序的顺序位置或其他任意顺序),回归软件将很难找到该数字与房价之间的相关性。 PS 107 是比 PS 32 或 PS 15 更贵的地区吗?阿丁顿和明地迷亚是否优于联合城和文图拉?

根据 one-hot 原则将这些特征拆分为 50 个不同的特征,将特征与编码解耦,并允许分析软件以一种数学上有意义的方式处理它们。无论如何,它并不完美——例如,从 20 个特征扩展到 70 个意味着需要更长的时间才能收敛——但我们确实为学区获得了有意义的结果。

如果您愿意,您现在可以按照预期的值顺序对该特征进行编码,并获得合理的拟合,而准确性损失很小,并且模型的预测速度更快(变量更少)。

关于machine-learning - 回归分析中的分类特征数据和有序特征数据差异?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34078894/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com