gpt4 book ai didi

machine-learning - 线性回归: Substituting the non-numerical discrete domain of a predictor with numerical one

转载 作者:行者123 更新时间:2023-11-30 08:33:50 27 4
gpt4 key购买 nike

所以我有一个训练集,其中一个属性的域如下:

A = {Type1, Type2, Type3, ... ,Type5}

如果域保持这种形式,我就无法应用线性回归,因为数学假设不可能成立,例如:

H = TxA + T1xB + T2xC + ...

(也就是说,如果我们假设除了 A 属性之外的所有属性都是数字,那么您不能将实值参数与类型相乘)

我可以用数值、等效、离散值替换域,这样我就可以对这个问题进行线性回归并且没问题吗?

A = {1, 2, 3, ...., 5 )

这是最佳实践吗?如果没有,您能给我在这些情况下的替代方案吗?

最佳答案

最佳实践是进行单热(one-of-K)编码:对于 A 可以采用的每个值,定义一个单独的指标特征。因此,对于五个“类型”,A = type1 将是

[1, 0, 0, 0, 0]

并且A = type3

[0, 0, 1, 0, 0]

然后将这些向量与您的其他特征连接起来,以便您的假设变为

H = w[Atype1] * [A=type1] + ... + w[Atype5] * [A=type5] + w[B] * B + ...

使用[]表示指标函数。

这避免了您的方法的主要问题,即您引入了许多(可能是不正确的)偏见,例如即type5 = type2 + type3。要进一步了解为什么这比您的编码更好,请参阅 this answer of mine .

关于machine-learning - 线性回归: Substituting the non-numerical discrete domain of a predictor with numerical one,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19512863/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com