gpt4 book ai didi

java - 使用类别作为特征的线性回归

转载 作者:搜寻专家 更新时间:2023-10-31 19:34:25 24 4
gpt4 key购买 nike

我正在尝试建立一个线性回归模型,但我的一些特色不是数字,例如“汽车颜色”,而其他是例如“引擎尺寸”。在非数字情况下,我不确定在添加为输入特征时如何表示这一点。我能想到的唯一方法是用不同的值表示每种颜色,例如(红色 = 1,蓝色 = 2,绿色 = 3...)但这似乎 Not Acceptable ,因为这意味着绿色比红色“更好”。

任何人都可以帮忙...我正在用 Java 实现这个,所以我很感激用这种语言表达的算法或独立于语言的算法。

最佳答案

一种方法是使用虚拟编码,另一种技术是效果编码

更多细节请引用这篇文章,我认为作者已经解释得比我在这里能做的更好。

Coding Categorical Variables in Regression Models: Dummy and Effect Coding by Resmi Gupta

我想这个解决方案属于你的语言独立类别;)

对汽车颜色进行编码(我假设汽车颜色只能采用 3 个值:红色、蓝色、绿色)

你可以这样编码:

Color  Dummy_Var_One  Dummy_Var_Two

Red 1 0
Blue 0 1
Green 0 0

在上表中,绿色将成为引用水平。在您的情况下,如果您的颜色采用 n 值,您将需要包含 n-1 虚拟变量。

可以在 Weka 中找到 Java 中的实现。过滤器 NominalToBinary ,尽管这将为 n 类别创建 n 变量。

关于java - 使用类别作为特征的线性回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11709808/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com