gpt4 book ai didi

python - 如何找到最相关的维度/列来分隔已知类

转载 作者:太空宇宙 更新时间:2023-11-04 06:46:43 25 4
gpt4 key购买 nike

我有从数千个癌细胞中获取的数据。存储在 Pandas 数据框中的每个单元格有 60 个测量值。使用另一种方法将细胞分为 3 个群体。

我想知道哪些参数/维度最能区分/区分类。我对此很陌生,有很多选择。我确实尝试了 sklearn 的 PCA 分解,但它只是返回了与类无关的数据集变化的 2-3 个原则组件(我仍然没有找到一种方法来打印出贡献最大的维度标签对于这种变化,我们将不胜感激!)

那么找到每个类别变化最大的维度的最佳方法是什么。我在想象一个 2 参数 PCA,我的类尽可能分开。

是否也可以做同样的事情来找到相对于另一个维度(列)变化最大的维度

谢谢!

最佳答案

您想使用线性判别分析 (LDA) 而不是 PCA。

PCA 仅查找以最佳方式代表所有类别的完整 数据集的组件。与此相反,您希望找到那些有助于您最好地区分不同类的组件,这就是 LDA 的用途。

看看这个例子:

http://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html

如果您在为您的数据调整此设置时遇到问题,请随时提供示例数据和一些 LDA 代码,让我们知道您遇到了什么困难。

[编辑:示例代码在这里:http://scikit-learn.org/stable/auto_examples/decomposition/plot_pca_vs_lda.html ]

关于python - 如何找到最相关的维度/列来分隔已知类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37055978/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com