gpt4 book ai didi

python - 相关系数说明-特征选择

转载 作者:行者123 更新时间:2023-12-03 16:11:07 25 4
gpt4 key购买 nike

如何根据相关系数确定要从模型中删除的变量。

参见下面的变量示例:

Top 10 Absolute Correlations:
Variable 1 Variable 2 Correlation Value
pdays pmonths 1.000000
emp.var.rate euribor3m 0.970955
euribor3m nr.employed 0.942545
emp.var.rate nr.employed 0.899818
previous pastEmail 0.798017
emp.var.rate cons.price.idx 0.763827
cons.price.idx euribor3m 0.670844
contact cons.price.idx 0.585899
previous nr.employed 0.504471
cons.price.idx nr.employed 0.490632

自相关变量的相关矩阵热图“”:

Below picture is the correlation matrix heat map of Independent variables

问题:

1)如何从两个变量之间计算的相关值中删除一个高相关变量

Ex : pdays pmonths 之间的相关值为 1.000000
从模型中删除哪个变量?天还是月?如何确定变量?

2)什么是 相关阈值范围被认为可删除变量?例如:> 0.65或> 0.90等

3)能否请您解释上面的热图,并给出有关要删除的变量及其原因的解释?

最佳答案

您可以尝试使用其他选择标准来在每对高度相关的特征之间进行选择。例如,您可以使用信息增益(IG),该信息可以度量某个要素提供的有关该类的信息(即,其熵的减少量[TAL14],[SIL07])。一旦您检测到一对高度相关的功能(例如,正如您所提到的 pdays pmonths ),您就可以测量每个变量的IG并保持IG最高。不过,您也可以使用其他选择标准来代替IG(例如,互信息最大化[BHS15])。
对于阈值,您可以选择所需的值(取决于您的问题)。但是,为了安全起见,我会选择较高的值(例如0.95),尽管您也可以考虑将其设置为0.94或0.9左右。此外,您总是可以稳定一个较高的值,然后降低该值以检查模型的性能。
[TAL14]唐继良,塞勒姆·阿莱亚尼和刘欢。分类的特征选择:评论,第37–64页。 CRC出版社,2014年1月。
[SIL07] Yvan Saeys,IñakiInza和PedroLarrañaga。生物信息学中的特征选择技术综述。生物信息学,23(19):2507-2517,2007年。
[BHS15] Mohamed Bennasar,Yulia Hicks和Rossitza Setchi。使用联合互信息最大化进行特征选择。专家系统的应用,42(22):8520-8532,2015。

关于python - 相关系数说明-特征选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62391208/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com