gpt4 book ai didi

machine-learning - 预测概率

转载 作者:行者123 更新时间:2023-11-30 08:47:04 26 4
gpt4 key购买 nike

我有由向量组成的时间序列数据

v=(x_1,…, x_n) 

二元分类变量和四种结果的概率

p_1, p_2, p_3, p_4. 

给定一个新的分类变量向量,我想预测概率

p_1,…,p_4

概率非常不平衡

p_1>.99 and p_2, p_3, p_4 < .01.

例如

v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015 
v_2=(0,0,1,0,0,0,0,1), p_1=.99, p_2=.006, p_3=.0035, p_4= .0005
v_3=(0,1,0,0,1,1,1,0), p_1=.99, p_2=.005, p_3=.003, p_4= .002
v_4=(0,0,1,0,1,0,0,1), p_1=.99, p_2=.0075, p_3=.002, p_4= .0005

给定一个新向量

v_5= (0,0,1,0,1,1,0,0) 

我想预测

p_1, p_2, p_3, p_4.

我还应该注意,新向量可能与输入向量之一相同,即

v_5=(0,0,1,0,1,0,0,1)= v_4.

我最初的方法是将其转化为 4 个回归问题。

第一个将预测 p_1,第二个将预测 p_2,第三个将预测 p_3,第四个将预测 p_4。问题是我需要

p_1+p_2+p_3+p_4=1 

我不是在分类,但我是否也应该担心不平衡的概率。欢迎任何想法。

最佳答案

您将其视为多重问题+最终归一化的建议有一定道理,但众所周知,在许多情况下都会出现问题(例如,参见 masking 的问题)。

您在这里描述的是 multiclass (soft) classification ,并且有许多已知的技术可以实现这一点。您没有指定您正在使用哪种语言/工具/库,或者您是否计划推出自己的语言/工具/库(这只对教学目的有意义)。我建议从 Linear Discriminant Analysis 开始它非常容易理解和实现,并且尽管有很强的假设,但众所周知在实践中通常效果很好(请参阅 the classical book by Hastie & Tibshirani )。

<小时/>

无论您用于软二元分类的底层算法(例如是否使用 LDA),将聚合输入转换为标记输入都不是很困难。

考虑实例

v_1= (1,0,0,0,1,0,0,0) , p_1=.99, p_2=.005, p_3=.0035, p_4= .0015 

如果您的分类器支持实例权重,请为其提供 4 个实例,标记为 1, 2, ...,权重由 p_1p_2、... 给出,分别。

如果它不支持实例权重,只需模拟大数定律所说的情况:从此输入生成一些大的n实例;对于每个这样的新输入,根据其概率随机选择一个标签。

关于machine-learning - 预测概率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35362494/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com