gpt4 book ai didi

c# - 分类逻辑回归,库

转载 作者:太空宇宙 更新时间:2023-11-03 16:46:45 25 4
gpt4 key购买 nike

我目前正在从事一个项目,该项目基于在多个重要层上生长在每个层中的植物来划分地理区域(也就是说,每个划分层都具有与其他层不同的独特含义)

在此过程中,我们使用逻辑回归从区域列表(包括它们在每一层中所属的区段以及它们包含的植物)到植物在每个区段组合中生长的概率。目前,我们正在使用 SPSS,链接到分段的 C# 实现。

到目前为止,还不错。问题是,SPSS 在寒冷的日子里像糖蜜一样缓慢。对于全套(2500 个工厂和 565 个区域),单次运行大约需要半个月。那是我们没有的时间,所以现在我们使用简化的数据集,但即使那样也需要几个小时。

我们研究过其他具有逻辑回归的库(特别是 Accord.NET 和 Extreme Optimization),但都没有分类逻辑回归。

在这一点上,我可能应该具体说明分类逻辑回归的含义。鉴于我们提供给统计引擎的数据集中的每一行都有一个变量用于每一层,并且一个变量用于我们目前感兴趣的植物,层变量的值被视为类别。 0 并不比 1 更好或更差,它只是不同而已。我们想要从统计引擎中得到的是每个层变量的每个类别的值(当然还有一个截距),因此在一个层有 3 个段和一个层有 2 个段的设置中,我们会得到 5值和截距。

我应该指出,我们已经在 Accord.NET(它必须在库外完成)和 Extreme Optimization(它有一些库内支持)中试验了虚拟变量或指示变量,但这没有产生必要的结果。

长话短说

所以,长话短说,有人知道用 C# 进行分类逻辑回归的好的解决方案吗?这可以是一个类库,或者只是一个用于插入外部统计引擎的接口(interface),只要它稳定且速度合理即可。

最佳答案

使用分类输入变量生成逻辑回归的标准方法是将分类变量转换为虚拟变量。因此,只要您对输入数据执行适当的转换,您就应该能够使用您在问题中提到的任何逻辑回归库。

从一个具有 n 个类别的分类变量到 n-1 个数字虚拟变量的映射称为对比。 This post对对比如何组合在一起有一些进一步的解释。

请注意,虚拟变量的数量比类别值的数量少 1。如果您尝试为每个类别值使用一个虚拟变量,您会发现最后一个虚拟变量并不独立于前面的虚拟变量,如果您尝试将回归模型拟合到它,您将得到错误(或无意义的系数)。

因此,以具有截距、3 级分类输入变量和 2 级分类输入变量的模型为例,系数的数量将为 1 + (3 - 1) + (2 - 1) = 4.

关于c# - 分类逻辑回归,库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5669333/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com