r - 小鼠的插补方法 - 数据集中的相关性。电阻-6ren

r - 小鼠的插补方法 - 数据集中的相关性。电阻

转载作者：行者123 更新时间：2023-12-04 11:15:43

26

4

我正在努力使用小鼠进行插补。主要目标是估算 NA(如果可能，按组)。
由于示例有点大，可以在此处简单发布，因此可以下载:
https://drive.google.com/open?id=1InGJ_M7r5jwQZZRdXBO1MEbKB48gafbP

我的问题是:

相关数据一般有多大问题？我该怎么做才能仍然估算数据？
数据是实证研究问题的一部分，我还不知道要包含哪些变量，因此最好暂时保留尽可能多的变量。

什么方法比“cart”和“pmm”更合适？我不想简单地估算平均值/中位数....

我可以通过“ID”以某种方式估算数据

调试技巧？

这是我的代码

#Start
require(mice)
require(Hmisc)
'setwd(...)
'test.df<-read.csv(...)
str(test.df)

检查相关性:
前 2 列包含标识符和年份，因此无需查看。

test.df.rcorr<-rcorr(as.matrix(test.df[,-c(1:2)]))
test.df.coeff<-test.df.rcorr$r
test.df.coeff<-corrplot(test.df.coeff)

可以看出，数据中有一些很强的相关性。
对于一个简单的任务，省略所有具有强相关性的列。

#Simple example

test.df2<-test.df[,-c(4,7,10,11)]
test.df2
sum(is.na(test.df2))

现在，让我们在不指定方法的情况下估算 test.df2:

imputation.df2<-mice(test.df2, m=1, seed=123456)
imputation.df2$method
test.df2.imp<-mice::complete(imputation.df2)

Warning message:
Number of logged events: 1 


sum(is.na(test.df2.imp))

可以看出，所有的 NA 都被估算了。并且使用的方法只是“pmm”。

使用完整数据集，我几乎立即收到以下错误消息:

imputation.df<-mice(test.df,m=1,seed = 66666)

 iter imp variable
  1   1  x1Error in solve.default(xtx + diag(pen)) : 
  system is computationally singular: reciprocal condition number = 1.49712e-16

这仅仅是由于数据中的相关性吗？

最后，我的 ID 插补代码，在显示此错误之前运行了更长的时间:

test123<- lapply(split(test.df, test.df$ID), function(x) mice::complete(mice(x, m = 1 ,seed = 987654)))
Error in edit.setup(data, setup, ...) : nothing left to impute
In addition: There were 19 warnings (use warnings() to see them)
Called from: edit.setup(data, setup, ...)

我知道这是一个很长的问题，我很感激每一个小提示或提示!

谢谢一堆!

最佳答案

我认为问题的出现是因为您正在处理纵向数据和 mice将观察视为独立的。纵向数据按 ID 进行聚类，处理此问题的一种方法是使用多级(即混合)模型作为插补模型。mice有许多选项可以处理此类数据，您可以在预测矩阵和插补方法中指定这些选项。

library(mice)
setwd("X:/My Downloads")

test.df <- read.csv("Impute.csv")

您需要指定 ID是您的分组或类变量。不幸的是 mice只能处理这个变量的整数值，所以你需要把它改成一个整数(你可以在插补后把它改回来)。

test.df$ID <- as.integer(test.df$ID)

您可以通过试运行小鼠轻松获得预测矩阵和插补方法(即插补 0 次迭代)。

ini<-mice(test.df,maxit=0)

pred1<-ini$predictorMatrix
pred1[,"ID"]<- -2 # set ID as class variable for 2l.norm
pred1[,"year"]<- 2 # set year as a random effect, slopes differ between individuals

预测变量矩阵中的值为 1 表示列变量用作固定效应预测变量来插补目标(行)变量，0 表示未使用。 -2 表示该变量是类变量(您的 ID )，值为 2 表示该变量将用作随机效应。有关详细信息，您需要阅读多级建模，但基本上您可以使用 year作为一个固定效应来指定每个人表现出相同的总体增长(每个人对任何其他变量的年份效应相同)或作为一个随机效应来模拟更复杂的假设，即个体的增长不同。
您可以查看您的数据，看看简单模型是否充分适合您观察到的数据，或者是否需要更复杂的模型(即个体是否以大致相同的速度增长)。

接下来，将您的方法更改为混合模型。您有两个通用选项: 2l.pan 假设方差在类内是同质的， 2l.norm 允许异质方差。同样，您需要阅读并检查您的数据(例如，运行混合模型并查看残差是否大致同质)。 2l.pan 是更简单的模型。

https://www.rdocumentation.org/packages/mice/versions/3.6.0/topics/mice.impute.2l.pan
https://www.rdocumentation.org/packages/mice/versions/3.6.0/topics/mice.impute.2l.norm

# 2l.norm mixed model (heterogenous within group variance) 2l.pan (homogenous within group variance)
#Work on method
meth1<-ini$method
meth1[which(meth1 == "pmm")] <- "2l.pan"

imputation.df<-mice(test.df,m=5,seed = 66666, method = meth1, predictorMatrix = pred1)

这种方法考虑了个体内部观察之间更高的相关性。总方差在 ID 处拆分为方差或 year 处的人员级别和方差或观察水平。

请注意，我还更改了数据集的数量 m = 1至 m = 5 . mice用于计算多个插补，从而产生多个数据集。每个数据集都会略有不同，插补之间的差异用于反射(reflect)缺失数据背后真实值的不确定性。如果您只估算一个数据集，则不会获得此优势。

由于插补模型更复杂，它们需要更长的时间运行，但错误不再发生，并且您的插补方法更好地代表了您的数据结构(希望能带来更准确的插补)。

 iter imp variable
  1   1  x1  x2  x3  x4  x5  x6  x7  x8  x9  x10  x11
  1   2  x1  x2  x3  x4  x5  x6  x7  x8  x9  x10  x11
  1   3  x1  x2  x3  x4  x5  x6  x7  x8  x9  x10  x11
  1   4  x1  x2  x3  x4  x5  x6  x7  x8  x9  x10  x11
  1   5  x1  x2  x3  x4  x5  x6  x7  x8  x9  x10  x11
  2   1  x1  x2  x3  x4  x5  x6  x7  x8  x9  x10  x11
  2   2  x1  x2  x3  x4  x5

对于多级建模，我建议阅读 Snijders 和 Bosker 的《多级分析》一书。鼠标手册还包含一些信息 https://www.jstatsoft.org/article/view/v045i03

关于r - 小鼠的插补方法 - 数据集中的相关性。电阻，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58834363/

26

4

0

文章推荐： subscription - 在网站上实现付费订阅服务

文章推荐： ruby-on-rails - 在 Rails 3 中启动 Rails 服务器

文章推荐： performance - Haskell 中的高效数字读取

文章推荐： scala - Playframework 示例未构建

r - 来自矩阵的 Spearman 相关性
我有一个如下所示的数据框: Samples GENE GEN1 GEN2 GEN3 GEN4 GEN5 Sample1 21.0 160 110 3.90 2.62 16.5 Sa
elasticsearch - 基于大多数匹配的查询的 Elasticsearch 相关性
我有以下映射 posts":{ "properties":{ "prop1": { "type": "nested", "properties": { "item
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
r - 相同维度的两个矩阵之间的 Spearman 相关性
我有两个维度相等的矩阵(p 和 e)，我想在同名的列之间建立斯 PIL 曼相关。我想在矩阵 (M) 中输出对相关性我使用了 Psych 库中的 corr.test() 函数，这是我所做的: libr
stata - 如何导出 Spearman 相关性
我正在尝试使用 estpost 和 community-contributed 命令将 Spearman 相关矩阵导出到 rtf 或 Excel 文件中 esttab。但是，我收到以下错误: inv
mysql - ORDER BY 相关性，同时使用参数化值
我在网上找到了以下查询: SELECT company_title FROM companies WHERE company_title like '%gge%' GROUP BY compa
mysql - 如何构建即时搜索引擎？ (具有排名/相关性)
我是 Sphinx 和 Lucene 的重度用户。Sphinx 只需要一个数据库，对其进行索引。然后您调用 Sphinx 获取 ID。但是，如果我想创建一个非常微型的搜索引擎怎么办？就几行数据，几
相关性/匹配值(value)树算法
是否有我要在下面描述的模式/算法的名称？... 假设您有一棵像这样的相关数据树: IDEs Visual Studio Visual Studio 2008 Visual Studio 2010 Ec
linux - 两列之间的 Pearson 相关性
早上好。这是我的问题:我有几个文件，如下所示: 104 0.1697 12.3513214 15.9136214 112 -0.3146 12.0517303 14.8027303 122 0.271
elasticsearch - ES function_score中_score(相关性)的值范围是多少？
在尝试将function_score与boost_mode: "sum"一起使用时(因为这样可以更轻松地跟踪不同的贡献)，我想归一化查询相关性对整体文档分数的影响，但是为此，我需要知道它可以取什么值。
java - mahout Spearman 相关性 java
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
python - scipy:spearmanr 返回值的重要性(相关性)
X,Y 的 spearmanr(Spearman 相关性)输出为我提供以下信息: 相关性:0.54542821980327882 P 值:2.3569040685361066e-65 其中 len(X
python - 部分日期的 Pandas DataFrame 相关性
我有一个 Pandas 数据框，它有一个七年时间范围内的日期时间索引和 10 种不同 Assets 的价格数据。我想运行 dataframe.corr 函数来评估 Assets 之间的关系，我的问题是
algorithm - 字符串比较算法，相关性， "alike"2个字符串是多少
我有相同数据(公司)的 2 个信息源，我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个
php - PHP 中的 Pearson 相关性
我正在尝试在php中实现两组数据之间人员相关系数的计算。我只是想做可以在这个 url 上找到的移植 python 脚本 http://answers.oreilly.com/topic/1066-ho
PHP 和 Elasticsearch 在返回的对象中包含分数/相关性
所以我使用 PHP Symfony 和 Ongr-Elasticsearch 包来查询我的文档并返回匹配的对象。结果似乎按相关性/分数排序，但实际相关性/分数不包含在对象本身中。这可能吗？我想将分数
python - Pandas 滚动窗口 Spearman 相关性
我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和/或 Pearson 相关性。我试过df['corr'] = df['col1'].rolling(P).corr(df['
r - 找到最佳方法来计算 R 中数百万个组合的最高 Pearson 相关性
我正在处理一个大型数据集。不过，我将从一个小示例开始，以说明我要实现的目标。我有以下向量: season %group_by(season, round, team)%>%dplyr::mutate
c# - .AspNetCore.相关性。未找到国家属性(property)。未知位置
我正在使用 OIDC 的混合身份验证流程。 options.Events.OnRedirectToIdentityProvider = redirectContext =>
elasticsearch - Elasticsearch 错误- undefined variable [相关性]
我正在尝试查询我的产品ElasticSearch索引并创建一个script_score，但我一直收到错误Variable [relevancy] is not defined. 我尝试只用一个数字替换

首页

博学

6Ren·AI

商城

r - 小鼠的插补方法 - 数据集中的相关性。电阻