r - 如何解决prcomp.default() : cannot rescale a constant/zero column to unit variance-6ren

r - 如何解决prcomp.default() : cannot rescale a constant/zero column to unit variance

转载作者：行者123 更新时间：2023-12-01 21:19:28

40

4

我有一个包含 9 个样本(行)和 51608 个变量(列)的数据集，每当我尝试缩放它时，我都会收到错误:

这很好用

pca = prcomp(pca_data)

但是，

pca = prcomp(pca_data, scale = T)

给出

> Error in prcomp.default(pca_data, center = T, scale = T) : 
  cannot rescale a constant/zero column to unit variance

显然，发布可重现的示例有点困难。你知道这笔交易会是什么吗？

寻找常量列:

    sapply(1:ncol(pca_data), function(x){
               length = unique(pca_data[, x]) %>% length
             }) %>% table

输出:

    .
        2     3     4     5     6     7     8     9 
     3892  4189  2124  1783  1622  2078  5179 30741

所以没有常量列。与 NA 相同 -

    is.na(pca_data) %>% sum

    >[1] 0

这工作正常:

    pca_data = scale(pca_data)

但是之后两者仍然给出完全相同的错误:

    pca = prcomp(pca_data)
    pca = prcomp(pca_data, center = F, scale = F)

那么为什么我无法根据这些数据获得缩放后的主成分分析呢？好的，让我们 100% 确定它不是恒定的。

    pca_data = pca_data + rnorm(nrow(pca_data) * ncol(pca_data))

同样的错误。数值数据？

    sapply( 1:nrow(pca_data), function(row){
      sapply(1:ncol(pca_data), function(column){
         !is.numeric(pca_data[row, column])
       })
     } ) %>% sum

还是同样的错误。我没主意了。

编辑:至少需要更多的技巧来解决它。

后来，仍然很难对这些数据进行聚类，例如:

    Error in hclust(d, method = "ward.D") : 
      NaN dissimilarity value in intermediate results.

在某个截止值下修剪值(例如 < 1 到零)没有效果。最终起作用的是修剪列中具有超过 x 个零的所有列。适用于 # 个零 <= 6，但 7+ 出现错误。不知道这是否意味着这是一个普遍的问题，或者这是否只是碰巧捕获了一个有问题的列。如果有人有任何想法，仍然会很高兴听到原因，因为只要没有变量全为零(或以另一种方式为常量)，这应该可以正常工作。

最佳答案

我认为您没有正确寻找零方差列。让我们尝试一些虚拟数据。首先，一个可接受的矩阵:10x100:

mat <- matrix(rnorm(1000, 0), nrow = 10)

还有一个零方差列。我们称之为 oopsmat。

const <- rep(0.1,100)
oopsmat <- cbind(const, mat)

oopsmat 的前几个元素如下所示:

      const                                                                                               
 [1,]   0.1  0.75048899  0.5997527 -0.151815650  0.01002536  0.6736613 -0.225324647 -0.64374844 -0.7879052
 [2,]   0.1  0.09143491 -0.8732389 -1.844355560  0.23682805  0.4353462 -0.148243210  0.61859245  0.5691021
 [3,]   0.1 -0.80649512  1.3929716 -1.438738923 -0.09881381  0.2504555 -0.857300053 -0.98528008  0.9816383
 [4,]   0.1  0.49174471 -0.8110623 -0.941413109 -0.70916436  1.3332522  0.003040624  0.29067871 -0.3752594
 [5,]   0.1  1.20068447 -0.9811222  0.928731706 -1.97469637 -1.1374734  0.661594937  2.96029102  0.6040814

让我们在 oopsmat 上尝试缩放和未缩放的 PCA:

PCs <- prcomp(oopsmat) #works
PCs <- prcomp(oopsmat, scale. = T) #not forgetting the dot
#Error in prcomp.default(oopsmat, scale. = T) : 
   #cannot rescale a constant/zero column to unit variance

因为如果标准差为无穷大，则无法除以它。为了识别零方差列，我们可以使用 which 来获取变量名称，如下所示。

which(apply(oopsmat, 2, var)==0)
#const 
#1

要从数据集中删除零方差列，您可以使用相同的 apply 表达式，将方差设置为不等于零。

oopsmat[ , which(apply(oopsmat, 2, var) != 0)]

希望有助于让事情变得更清晰!

关于r - 如何解决prcomp.default() : cannot rescale a constant/zero column to unit variance，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40315227/

40

4

0

文章推荐： vba - Outlook VBA Mailitem 属性 SenderEmailAddress 未正确返回地址

文章推荐： java - hibernate 搜索 : concurrent timeout exception

文章推荐： java - 从外部 jar 加载一个类及其所有组件

文章推荐： excel - Apache POI : SXSSFWorkbook. dispose() 不存在

R - `prcomp` 是否采用样本数据或协方差矩阵作为输入？
如果您在线搜索，有一些线程讨论了函数 princomp 中使用 covmat 标志，该函数对其输入执行主成分分析。如果未定义 covmat 参数，princomp 首先计算输入的样本协方差矩阵。另一
r - prcomp 的自动绘图 - 更改符号
我遇到了一些密谋困境，我希望你们都能为我提供一个快速简单的答案。我使用 prcomp() 运行 PCA，并首次尝试使用 ggplot 绘制它。我已经成功地制作了一个美观的图形，但是我刚刚有同事指出它目
r - 使用 prcomp 手动计算第一主成分时的结果冲突
我正在计算 iris 数据集的 PCA，如下所示: data(iris) ir.pca <- prcomp(iris[, 1:4], center = TRUE, scale. = TRUE) 这是
r - R 中 prcomp 对象的子集
我基本上是在计算一组变量的 PCA，一切正常。可以说我以 iris 数据为例，但我的数据不同。虹膜数据应该足以解释我的问题: data(iris) log.ir <- log(iris[, 1:4])
r - 主成分对象的标准值在 prcomp 和 caret 中不同
我正在尝试在以下数据集中进行主成分分析。我尝试通过 prcomp 函数和插入符预处理函数。 library(caret) library(AppliedPredictiveModeling)
r - 如何在 prcomp 中反转 PCA 以获取原始数据
我想反转从 prcomp 计算的 PCA 以恢复到我的原始数据。我认为类似以下内容会起作用: pca$x %*% t(pca$rotation) 但事实并非如此。以下链接显示了如何从 PC 取回原
r - R : prcomp and confidence ellipses 中的 PCA
我最近在 R 中使用 prcomp() 函数运行了 PCA，现在我需要(客观地)确定来自我的两个不同组的哪些样本是异常值，应该从进一步分析中删除。我以前看过 PCA 图，其中置信度/方差椭圆(不确定
r - prcomp 和 ggbiplot : invalid 'rot' value
我正在尝试使用 R 对我的数据进行 PCA 分析，我发现 this nice guide , 使用 prcomp和 ggbiplot .我的数据是两种样本类型，每种类型具有三个生物学重复(即 6 行)
r - PCA prcomp : how to get PC1 to PC3 graph
在我的 PCA 脚本(下方)中，我总是得到 PC1 与 PC2 的图表。 mydata.pca <- prcomp(mydata.fixed, center = TRUE, scale. = TRU
r - prcomp 之后 ggplot2 和 autoplot() 的区别？
我用 autoplot() 制作了一个 PCA 图，但我想只在其中 2 个组周围有椭圆，而不是所有 3 个组。因此我切换到 ggplot。但是，我的轴在 autoplot 和 ggplot 方法之间似
R:ggfortify: "Objects of type prcomp not supported by autoplot"
我正在尝试使用 ggfortify 来可视化我使用 prcomp 所做的 PCA 结果。示例代码: iris.pca <- iris[c(1, 2, 3, 4)] autoplot(prcomp(i
r - PCA:为什么我从 princomp() 和 prcomp() 得到如此不同的结果？
在下面的代码中，pc3$loadings 和 pc4$rotation 之间有什么区别？代码: pc3<-princomp(datadf, cor=TRUE) pc3$loadings pc4<-p
r - 如何使用 Prcomp 在 R 中提取 PCA 的摘要作为数据框？
res.pca = prcomp(y, scale = TRUE) summ=summary(res.pca) summ 给我输出 Desired Output 我想将此摘要更改为数据框，我试过使用
r - 使用 prcomp 和我自己在 R 中进行主成分分析 : different results
我哪里错了？我正在尝试通过 prcomp 和我自己执行 PCA，我得到不同的结果，你能帮我吗？自己做: >database matrix.corstandardizevalues.standard
r - 如何在 R 中使用 prcomp 将属性数量减少到 20 个？
我有一个名为 data 的 104 个属性数据集.我想使用 prcomp 将属性数量减少到 20 个R 中的函数。我这样做了: pr = prcomp(data) 但是pr仅包含 prcomp 的实
即使 NA 是允许的，R 函数 prcomp 也会因 NA 的值而失败
我正在使用功能 prcomp计算前两个主成分。但是，我的数据有一些 NA 值，因此该函数会引发错误。即使在帮助文件 ?prcomp 中提到了定义的 na.action ，它似乎也不起作用。这是我的例
r - 使用 prcomp 在 R 上进行 PCA(主成分分析)的问题
我在问是否有人可以帮助我开始对我的数据进行 PCA，这是代码结构: > dput(FA) structure(list(sample = c("c1", "c2", "c3", "Zn10_1", "
r - R 中的 PCA 使用 caret 包与 prcomp PCA
我有一个包含 50 多个变量的数据框 data，我正在尝试使用 caret 包在 R 中执行 PCA。 library(caret) library(e1071) trans <- preProces
r - 如何在具有大型数据集的 R 中使用 princomp() 或 prcomp() 函数，而不转移数据？
我刚刚开始了解 PCA，我希望将它用于包含超过 4,00,000 行的巨大微阵列数据集。我的列以样本的形式存在，行以基因/基因座的形式存在。我确实阅读了一些有关使用 PCA 的教程，并遇到了 prin
r - 如何在具有大型数据集的 R 中使用 princomp() 或 prcomp() 函数，而不转移数据？
我刚刚开始了解 PCA，我希望将它用于包含超过 4,00,000 行的巨大微阵列数据集。我的列以样本的形式存在，行以基因/基因座的形式存在。我确实阅读了一些有关使用 PCA 的教程，并遇到了 prin

首页

博学

6Ren·AI

商城

r - 如何解决prcomp.default() : cannot rescale a constant/zero column to unit variance