r - 如何使用鼠标对纵向数据中的缺失值进行多重插补？-6ren

r - 如何使用鼠标对纵向数据中的缺失值进行多重插补？

转载作者：行者123 更新时间：2023-12-05 04:38:05

我有一个数据集，其中包含重复测量的连续结果和一些不同类别的协变量，如下例所示。

 Id    y       Date          Soda    Team
 1    -0.4521  1999-02-07    Coke    Eagles 
 1     0.2863  1999-04-15    Pepsi   Raiders
 2     0.7956  1999-07-07    Coke    Raiders
 2    -0.8248  1999-07-26    NA      Raiders 
 3     0.8830  1999-05-29    Pepsi   Eagles 
 4     0.1303  2005-03-04    NA      Cowboys
 5     0.1375  2013-11-02    Coke    Cowboys
 5     0.2851  2015-06-23    Coke    Eagles 
 5    -0.3538  2015-07-29    Pepsi   NA 
 6     0.3349  2002-10-11    NA      NA
 7    -0.1756  2005-01-11    Pepsi   Eagles
 7     0.5507  2007-10-16    Pepsi   Cowboys
 7     0.5132  2012-07-13    NA      Cowboys
 7    -0.5776  2017-11-25    Coke    Cowboys
 8     0.5486  2009-02-08    Coke    Cowboys

我正在尝试使用 mice 包来乘以 Soda 和 Team 中的缺失值。据我了解，因为MI不是因果模型，所以没有因变量和自变量的概念。我不确定如何使用 mice 设置此 MI 过程。我喜欢其他人在像这样的重复测量设置中遇到缺失数据的一些建议或建议，以及他们如何使用鼠标来解决这个问题。提前致谢。

编辑

这是我迄今为止尝试过的方法，但这并没有捕获数据集的重复测量部分。

library(mice)

init = mice(dat, maxit=0)

methd = init$method

predM = init$predictorMatrix

methd [c("Soda")]="logreg"; 
methd [c("Team")]="logreg";  

imputed = mice(data, method=methd , predictorMatrix=predM, m=5)

最佳答案

有多种选择可以实现您的要求。我决定以所谓的“宽”格式估算协变量中的缺失值。我将通过以下工作示例来说明这一点，您可以轻松地将其应用于您自己的数据。

让我们先做一个reprex。在这里，我使用了 JM 包中的纵向 Mayo Clinic 原发性胆汁性肝硬化数据 (pbc2)。此数据以所谓的“长”格式组织，这意味着每个患者 i 都有多行，每行包含变量 x 的测量值，时间 j。您的数据集也是长格式的。在这个例子中，我假设 pbc2$serBilir 是我们的结果变量。

# install.packages('JM')
library(JM)

# note: use function(x) instead of \(x) if you use a version of R <4.1.0

# missing values per column
miss_abs <- \(x) sum(is.na(x)) 
miss_perc <- \(x) round(sum(is.na(x)) / length(x) * 100, 1L)
miss <- cbind('Number' = apply(pbc2, 2, miss_abs), '%' = apply(pbc2, 2, miss_perc))
# --------------------------------
> miss[which(miss[, 'Number'] > 0),]
             Number    %
ascites          60  3.1
hepatomegaly     61  3.1
spiders          58  3.0
serChol         821 42.2
alkaline         60  3.1
platelets        73  3.8

根据此输出，pbc2 中的 6 个变量至少包含一个缺失值。让我们从中选择碱性。我们还需要患者 id 和时间变量 years。

# subset
pbc_long <- subset(pbc2, select = c('id', 'years', 'alkaline', 'serBilir'))

# sort ascending based on id and, within each id, years
pbc_long <- with(pbc_long, pbc_long[order(id, years), ])
# ------------------------------------------------------
> head(pbc_long, 5)
  id    years alkaline serBilir
1  1  1.09517     1718     14.5
2  1  1.09517     1612     21.3
3  2 14.15234     7395      1.1
4  2 14.15234     2107      0.8
5  2 14.15234     1711      1.0

通过快速观察，我们观察到 年 在受试者中似乎没有差异，即使重复测量变量也是如此。为了这个例子，让我们为 years 的所有行添加一点时间，但第一个测量值除外。

set.seed(1)

# add little bit of time to each row of 'years' but the first row
new_years <- lapply(split(pbc_long, pbc_long$id), \(x) {
  add_time <- 1:(length(x$years) - 1L) + rnorm(length(x$years) - 1L, sd = 0.25)
  c(x$years[1L], x$years[-1L] + add_time)
})
# replace the original 'years' variable
pbc_long$years <- unlist(new_years)

# integer time variable needed to store repeated measurements as separate columns
pbc_long$measurement_number <- unlist(sapply(split(pbc_long, pbc_long$id), \(x) 1:nrow(x)))

# only keep the first 4 repeated measurements per patient
pbc_long <- subset(pbc_long, measurement_number %in% 1:4)

因为我们将以宽格式执行多重插补(这意味着每个参与者 i 有一行并且对 x 的重复测量存储在 j 不同的列，所以总共 x_j 列)，我们必须将数据从长数据转换为宽数据。现在我们已经准备好数据，我们可以使用 reshape 为我们做这件事。

# convert long format into wide format
v_names <- c('years', 'alkaline', 'serBilir')
pbc_wide <- reshape(pbc_long,
                    idvar = 'id',
                    timevar = "measurement_number",
                    v.names = v_names, direction = "wide")
# -----------------------------------------------------------------
> head(pbc_wide, 4)[, 1:9]
   id   years.1 alkaline.1 serBilir.1   years.2 alkaline.2 serBilir.2   years.3 alkaline.3
1   1  1.095170       1718       14.5  1.938557       1612       21.3        NA         NA
3   2 14.152338       7395        1.1 15.198249       2107        0.8 15.943431       1711
12  3  2.770781        516        1.4  3.694434        353        1.1  5.148726        218
16  4  5.270507       6122        1.8  6.115197       1175        1.6  6.716832       1157

现在让我们将协变量中的缺失值相乘。

library(mice)

# Setup-run
ini <- mice(pbc_wide, maxit = 0)
meth <- ini$method
pred <- ini$predictorMatrix
visSeq <- ini$visitSequence

# avoid collinearity issues by letting only variables measured
# at the same point in time predict each other
pred[grep("1", rownames(pred), value = TRUE),
     grep("2|3|4", colnames(pred), value = TRUE)] <- 0
pred[grep("2", rownames(pred), value = TRUE),
     grep("1|3|4", colnames(pred), value = TRUE)] <- 0
pred[grep("3", rownames(pred), value = TRUE),
     grep("1|2|4", colnames(pred), value = TRUE)] <- 0
pred[grep("4", rownames(pred), value = TRUE),
     grep("1|2|3", colnames(pred), value = TRUE)] <- 0

# variables that should not be imputed
pred[c("id", grep('^year', names(pbc_wide), value = TRUE)), ] <- 0
# variables should not serve as predictors
pred[, c("id", grep('^year', names(pbc_wide), value = TRUE))] <- 0

# multiply imputed missing values ------------------------------
imp <- mice(pbc_wide, pred = pred, m = 10, maxit = 20, seed = 1)
# Time difference of 2.899244 secs

从下面三个示例跟踪图(可以通过 plot(imp) 获得)可以看出，算法已经很好地收敛了。请参阅 Stef van Buuren 的书的 this section 了解更多信息关于收敛。

现在我们需要将乘法插补数据(宽格式)转换回长格式，以便我们可以将其用于分析。我们还需要确保我们排除了结果变量 serBilir 缺失值的所有行，因为我们不想使用结果的估算值。

# need unlisted data
implong <- complete(imp, 'long', include = FALSE)

# 'smart' way of getting all the names of the repeated variables in a usable format
v_names <- as.data.frame(matrix(apply(
  expand.grid(grep('ye|alk|ser', names(implong), value = TRUE)),
  1, paste0, collapse = ''), nrow = 4, byrow = TRUE), stringsAsFactors = FALSE)
names(v_names) <- names(pbc_long)[2:4]

# convert back to long format
longlist <- lapply(split(implong, implong$.imp),
                   reshape, direction = 'long',
                   varying = as.list(v_names),
                   v.names = names(v_names),
                   idvar = 'id', times = 1:4)

# logical that is TRUE if our outcome was not observed
# which should be based on the original, unimputed data
orig_data <- reshape(imp$data, direction = 'long',
                     varying = as.list(v_names),
                     v.names = names(v_names),
                     idvar = 'id', times = 1:4)
orig_data$logical <- is.na(orig_data$serBilir)

# merge into the list of imputed long-format datasets:
longlist <- lapply(longlist, merge, y = subset(orig_data, select = c(id, time, logical)))

# exclude rows for which logical == TRUE
longlist <- lapply(longlist, \(x) subset(x, !logical))

最后，使用 miceadds 包中的 datalist2mids 将 longlist 转换回 mids。

imp <- miceadds::datalist2mids(longlist)
# ----------------
> imp$loggedEvents
NULL

关于r - 如何使用鼠标对纵向数据中的缺失值进行多重插补？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/70644785/

文章推荐： class - 在基类错误中找不到“GetCalcFields”

文章推荐： javascript - react 条件状态更新不起作用

文章推荐： ios - 出现 View 时工具栏跳到位

文章推荐： javascript - 将外部 javascript 脚本添加到 React

javascript - 鼠标&触摸水平div滑动
我正在尝试为我的网站创建一个功能，允许用户使用 mousemove 和 touchmove 事件水平滚动 div 内容(类似于 Apple AppStore any app Screenshots s
javascript - 点击调用悬停/鼠标
我有固定的侧边栏导航栏，它在悬停时工作，但我想通过单击折叠按钮打开第一个菜单。类似于悬停在菜单 1 上的工作方式。我已经尝试了以下方法。 jsfiddle Demo $(document).on('c
c# - 鼠标.Synchronize()
Mouse.Synchronize() 在 .Net 中有什么作用？ MSDN 说它“强制鼠标重新同步” 最佳答案只是我的假设: Stylus 中存在类似的方法类别:Stylus.Synchroni
python - 隐藏时使用 Pygame 鼠标
有没有什么办法可以同时使用鼠标， pygame.mouse.set_visible(False) 已激活。当前鼠标仅在尝试使用时返回右下坐标。需要在隐藏鼠标时能够获得正确的坐标。在他们的 docum
R - 鼠标 - 添加一个列，该列对具有估算值的列求和
我有一个缺少数据的数据库。我需要估算数据(我使用的是鼠标)，然后根据原始列创建新列(使用估算数据)。我需要使用这些新列进行统计分析。具体来说，我的参与者使用李克特 7 分量表填写了几份问卷。有些人没
python - python与pc交互(鼠标+截图)
我正在编写一个与电脑交互的机器人。简而言之，我所做的是: -截取屏幕截图- 在此屏幕截图上识别对象(使用 cv2 matchTemplate) -使用找到的位置进行一些鼠标操作(例如:将鼠标指针移动到
c# - 鼠标 "buffering"单击禁用按钮
我的程序是一个文本游戏，它使用 WindowsForm 上的文本框模拟控制台输出。我试图实现的一个功能是通过单击一个按钮，它将以一定的速度输出到 TextBox，这是通过这种方法实现的 atm: pu
javascript - JS - 射击 - 鼠标
我遇到了一个问题。如果有任何帮助，我将不胜感激。我正在尝试从玩家位置射击到鼠标点击位置。代码没有给我任何错误，根据我的逻辑，它应该可以工作，但它没有它创建了项目符号对象，仅此而已。 //Bulle
c# - 将手机注册为 HID(鼠标)
给定一个带蓝牙的 Windows Mobile 6.1 智能手机，我想将它注册为鼠标。基本上我现在做的: 使用 Guid {00001124-0000-1000-8000-00805f9b34fb}
鼠标/拖动事件上的 JavaFX 飞盘运动
我有一个关于在 JavaFX 中实现鼠标拖动事件的正确方法的问题。我的 playGame() 方法当前使用 onMouseClicked，但这只是一个占位符理想情况下，我希望“飞盘”沿着鼠标拖动的
javascript - 最好的网站光标(鼠标)跟踪应用程序是什么？
已关闭。此问题旨在寻求有关书籍、工具、软件库等的建议。不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以
c++ - RawInput 鼠标 - 无法移动窗口或使用控件
我目前正在使用 Windows 的 RawInput API 来访问键盘和鼠标输入。我有点困惑的一件事是，当我将鼠标注册为 RawInputDevice 时，我无法移动我的 Win32 窗口或使用那里
javascript - 如何在浏览器窗口中 move 鼠标？
我想在我的网站浏览器窗口中 move 鼠标，如下所示:www.lmsify.com。我怎样才能做到这一点？(javascript、flash、activex) 问候，丽莎M 最佳答案他们并没有真正
jquery - 鼠标 x 移动动画
我想要一个动画。我是后端开发人员，但我必须使用 jquery 创建动画。动画、背景和元素位置随鼠标移动而变化。类似于http://www.kennedyandoswald.com/#!/premi
c - OpenGL 鼠标 "lock"
如何将鼠标“锁定”到某个 OpenGL 窗口。有点像在 Minecraft 中是如何完成的。GameDev 是一个更好的询问地点吗？最佳答案正如 Robert 在评论中所说，OpenGL 实际上并
c# - 鼠标 Hook 断开
我正在尝试实现一个颜色选择器，它从屏幕上各处的像素中获取颜色。为此，我计划使用全局鼠标 Hook 来监听 WM_MOUSEMOVE，以便在鼠标四处移动时更新颜色，并监听鼠标点击以确认 (WM_LBUT
java - 如何移动(或使用)鼠标
如何使用 Java 和 JNA(Java native 访问)与 Windows API 交互？。我试图通过在鼠标输入流上排队鼠标事件来让鼠标做某事，并且代码有效，因为 SendInput(...)
c++ - 如何用C++ move 鼠标
我想用 C++ 脚本 move 鼠标光标。我在 Parallels 中的 Windows 7 中使用 Visual C++ 2010 Express，并创建了一个控制台应用程序。我知道 SetCur
c++ - 鼠标 Hook - 限制和性能
我有一些关于 WH_MOUSE 的问题。根据我的阅读，通过将钩子(Hook)放入 DLL 中，它会注入(inject)进程。这是否意味着捕获鼠标也适用于我的桌面、菜单启动等？那么应用程序的标题栏呢？我
windows - 多个鼠标/鼠标/光标？
如何为多只鼠标显示另一个光标？我有两个 TMemos，两个可以输入各自 TMemo 的键盘，2 个鼠标，我需要 2 个光标。如果假设的话，我已经可以检测出哪只鼠标是哪只了。我怎样才能让我自己的光标

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 如何使用鼠标对纵向数据中的缺失值进行多重插补？