gpt4 book ai didi

r - 分配随机缺失值

转载 作者:行者123 更新时间:2023-12-02 00:01:03 27 4
gpt4 key购买 nike

我有一个包含缺失值的数据集,我能够使用不同的方法来估算缺失值。现在我想估计插补方法的准确性。但由于我不知道插补前的真实值是多少,我想在原始数据“缺失值数据”中屏蔽一些值,然后使用我的常规插补方法。完成插补后,我可以将插补值与真实值进行比较,以估计插补的准确性。所以,我的问题是:假设我想将数据集中的 100 个元素分配为 NA,如何挑选 100 个不丢失的元素来分配 NA 给它。那么,如何追踪这些元素进行进一步的分析呢?

例子

library(BLR)
library(missForest)
data(wheat)
X2<- prodNA(X, 0.1) ## original “ data with 10 % missing values
X3<- missForest(X2)$Ximp ## imputed data set

最佳答案

此方法将确保恰好提取 N 个点,没有重复

## Assuming 'DF' is your data.frame or data.table

# The number of values to set to NA
N <- 10
inds <- as.matrix(expand.grid(1:nrow(DF), 1:ncol(DF)))

# Drop any indecies where DF is NA
inds <- matrix(inds[!is.na(DF[inds])], ncol=2)

# Sample randomly
selected <- inds[sample(nrow(inds), N), ]

# Note that `selected` is a matrix of (row, col) indices
DF[selected] <- NA

关于r - 分配随机缺失值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21372120/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com