gpt4 book ai didi

python - 如何衡量数据框中特征之间的差异?

转载 作者:行者123 更新时间:2023-11-30 09:44:25 25 4
gpt4 key购买 nike

我有一个大约有 20000 行和 98 个特征的数据框(所有特征都是数字)和一个具有二进制值的目标特征:0 和 1。基本上,有两个群体(第一个群体的目标值为 1 --50% --,第二个目标值0 -50%-平衡数据)。在分类问题中,我尝试预测给定数据的目标值。因此,我植入了监督学习算法(例如SVM)来预测目标值,并且可以获得非常好的结果,准确率约为0.95。这个结果让我意识到,这些特征之间存在相当大的差异。因此,在下一步中,我必须知道造成这种差异的重要特征是什么,以及量化这两组人群之间的特征差异的最佳方法是什么。有什么想法吗?

最佳答案

要按重要性对功能进行排名,您可以使用 Weka及其强大的功能选择工具包。请参阅this blogpost了解更多信息和示例。顺便说一句,Weka 也有 SVM 实现。一旦你确定了重要的特征,你就可以想象它们在两个类之间有多么不同,例如通过绘制类的分布图。 Matplotlib 有类似 histboxplot 这样的工具。

如果您有具有线性核的 SVM,则可以使用其系数作为输入特征的直接决策权重:

关于python - 如何衡量数据框中特征之间的差异?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54350062/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com