gpt4 book ai didi

python - 具有缺失值的分类数据中的降维

转载 作者:IT老高 更新时间:2023-10-28 20:34:34 30 4
gpt4 key购买 nike

我有一个回归模型,其中因变量是连续的,但 90% 的自变量是分类变量(有序和无序),大约 30% 的记录有缺失值(更糟糕的是,它们随机缺失任何模式,也就是说,超过 45% 的数据至少有一个缺失值)。没有先验理论来选择模型的规范,因此关键任务之一是在运行回归之前进行降维。虽然我知道连续变量降维的几种方法,但我不知道分类数据的类似静态文献(可能除了作为对应分析的一部分,它基本上是频率表上主成分分析的变体)。我还要补充一点,数据集的大小适中,有 500000 个观测值,有 200 个变量。我有两个问题。

  1. 对于分类数据的降维以及稳健的插补(我认为第一个问题是插补,然后是降维),是否有很好的统计引用?
  2. 这与上述问题的实现有关。我之前已经广泛使用 R,并且倾向于大量使用 transcan 和 impute 函数来处理连续变量,并使用树方法的变体来估算分类值。我对 Python 有一定的了解,所以如果有什么好的东西可以用于这个目的,那么我会使用它。 python 或 R 中的任何实现指针都会有很大帮助。谢谢。

最佳答案

关于分类数据的插补,我建议检查 mice包裹。也看看这个presentation这解释了它如何估算多元分类数据。不完整多元数据的多重插补的另一个软件包是 Amelia . Amelia 包含一些有限的能力来处理序数和名义变量。

至于分类数据的降维(即一种将变量排列成同质簇的方法),我建议使用 Multiple Correspondence Analysis 的方法。这将为您提供最大化集群同质性的潜在变量。与主成分分析 (PCA) 和因子分析中所做的类似,MCA 解决方案也可以旋转以增加组件的简单性。旋转背后的想法是找到与旋转分量更清晰一致的变量子集。这意味着最大化组件的简单性有助于因子解释和变量聚类。在 R MCA 中,方法包含在包中 ade4 , MASS , FactoMineRca (至少)。至于 FactoMineR,如果将其作为额外菜单添加到 Rcmdr 包已经提出的菜单中,则可以通过图形界面使用它,安装 RcmdrPlugin.FactoMineR

关于python - 具有缺失值的分类数据中的降维,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2837850/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com