R:data.table 按组计算多个变量的加权平均值，每个变量具有多个权重变量

转载作者：行者123 更新时间：2023-12-05 04:12:30

26

4

我对 data.table 还是个新手。我的问题类似于 this one 和 this one 。不同之处在于，我想按组计算多个变量的加权均值，但每个均值使用多个权重。

考虑以下data.table(实际要大得多):

library(data.table)

set.seed(123456)

mydata <- data.table(CLID = rep("CNK", 10),
                     ITNUM = rep(c("First", "Second", "First", "First", "Second"), 2),
                     SATS = rep(c("Always", "Amost always", "Sometimes", "Never", "Always"), 2),
                     ASSETS = rep(c("0-10", "11-25", "26-100", "101-200", "MORE THAN 200"), 2),
                     AVGVALUE1 = rnorm(10, 10, 2),
                     AVGVALUE2 = rnorm(10, 10, 2),
                     WGT1 = rnorm(10, 3, 1),
                     WGT2 = rnorm(10, 3, 1),
                     WGT3 = rnorm(10, 3, 1))

#I set the key of the table to the variables I want to group by,
#so the output is sorted
setkeyv(mydata, c("CLID", "ITNUM", "SATS", "ASSETS"))

我想要实现的是按 ITNUM 定义的组计算 AVGVALUE1 和 AVGVALUE2(可能还有更多变量)的加权平均值, SATS, ASSETS 使用每个权重变量 WGT1, WGT2, WGT3(可能还有更多)。因此，对于我想要计算加权均值的每个变量，我将按组(或任何权重数)获得三个加权均值。

我可以分别为每个变量做这件事，例如:

all.weights <- c("WGT1", "WGT2", "WGT3")
avg.var <- "AVGVALUE1"
split.vars <- c("ITNUM", "SATS", "ASSETS")

mydata[ , Map(f = weighted.mean, x = .(get(avg.var)), w = mget(all.weights),
na.rm = TRUE), by = c(key(mydata)[1], split.vars)]

我在 by 中添加了第一个键变量，尽管它是一个常量，因为我想将它作为输出中的一列。我得到:

   CLID  ITNUM         SATS        ASSETS       V1       V2       V3
1:  CNK  First       Always          0-10 11.66824 11.66819 11.66829
2:  CNK  First        Never       101-200 11.37378 12.21008 11.60182
3:  CNK  First    Sometimes        26-100 12.43004 13.13450 12.01330
4:  CNK Second       Always MORE THAN 200 12.32265 11.81613 12.56786
5:  CNK Second Amost always         11-25 10.76556 11.34669 10.52458

但是，对于实际的 data.table，我有更多的列来计算加权平均值(以及要使用的更多的权重)，这样做会很麻烦逐个。我想象的是一个函数，其中每个变量(AVGVALUE1、AVGVALUE2 等等)的平均值是用每个权重变量(WGT1、WGT2、WGT3 等)，并将计算加权平均值的每个变量的输出添加到列表中。我想列表是最好的选择，因为如果所有估计都在同一个输出中，列数可能是无穷无尽的。所以像这样:

[[1]]
   CLID  ITNUM         SATS        ASSETS       V1       V2       V3
1:  CNK  First       Always          0-10 11.66824 11.66819 11.66829
2:  CNK  First        Never       101-200 11.37378 12.21008 11.60182
3:  CNK  First    Sometimes        26-100 12.43004 13.13450 12.01330
4:  CNK Second       Always MORE THAN 200 12.32265 11.81613 12.56786
5:  CNK Second Amost always         11-25 10.76556 11.34669 10.52458

[[2]]
   CLID  ITNUM         SATS        ASSETS        V1        V2        V3
1:  CNK  First       Always          0-10  9.132899  9.060045  9.197005
2:  CNK  First        Never       101-200 12.896584 13.278680 13.000772
3:  CNK  First    Sometimes        26-100 10.972260 11.215390 10.828431
4:  CNK Second       Always MORE THAN 200 11.704404 11.611072 11.749586
5:  CNK Second Amost always         11-25  8.086409  8.225030  8.028928

到目前为止我尝试了什么:

使用lapply

all.weights <- c("WGT1", "WGT2", "WGT3")
avg.vars <- c("AVGVALUE1", "AVGVALUE2")
split.vars <- c("ITNUM", "SATS", "ASSETS")

lapply(mydata, function(i) {
mydata[ , Map(f = weighted.mean, x = mget(avg.vars)[i], w = mget(all.weights),
na.rm = TRUE), by = c(key(mydata)[1], split.vars)]
})

Error in weighted.mean.default(x = dots[[1L]][[1L]], w = dots[[2L]][[1L]],  : 
 'x' and 'w' must have the same length

使用mapply

myfun <- function(data, spl.v, avg.v, wgts) {
  data[ , Map(f = weighted.mean, x = mget(avg.v), w = mget(all.weights),
  na.rm = TRUE), by = c(key(data)[1], spl.v)]
}

mapply(FUN = myfun, data = mydata, spl.v = split.vars, avg.v = avg.vars,
wgts = all.weights)

Error: value for ‘AVGVALUE2’ not found

我试图将 mget(avg.v) 包装为列表 - .(mget(avg.v))，但随后出现另一个错误:

 Error in mapply(FUN = f, ..., SIMPLIFY = FALSE) : 
  could not find function "."

有人可以帮忙吗？

最佳答案

我们可以使用 outer(对两个输入向量中值的所有组合执行函数)对向量化加权均值函数进行运算。通过在数据表的范围内定义 outer 使用的函数，我们可以让 get 评估 data.table 列:

wmeans = mydata[, {
  f  = function(X,Y) weighted.mean(get(X), get(Y));
  vf = Vectorize(f);
  outer(avg.var, all.weights, vf)},
  by = split.vars]

这将所有方法放入单个列中(即“长”格式)。我们还可以添加更多列来指定每个列指的是哪个值/权重组合:

wmeans[, mean.v := expand.grid(avg.var, all.weights)[,1]]       
wmeans[, mean.w := expand.grid(avg.var, all.weights)[,2]]
head(wmeans)
#    ITNUM   SATS ASSETS        V1    mean.v mean.w
# 1: First Always   0-10 11.668243 AVGVALUE1   WGT1
# 2: First Always   0-10  9.132899 AVGVALUE2   WGT1
# 3: First Always   0-10 11.668192 AVGVALUE1   WGT2
# 4: First Always   0-10  9.060045 AVGVALUE2   WGT2
# 5: First Always   0-10 11.668287 AVGVALUE1   WGT3
# 6: First Always   0-10  9.197005 AVGVALUE2   WGT3

我们可以使用 dcast 将其 reshape 为一个在 avg.var 中很长但在 all.weights 中很宽的 data.table:

wide.wmeans = dcast(wmeans, mean.v+ITNUM+SATS+ASSETS ~ mean.w, value.var = "V1")  
#       mean.v  ITNUM         SATS        ASSETS      WGT1      WGT2      WGT3
# 1: AVGVALUE1  First       Always          0-10 11.668243 11.668192 11.668287
# 2: AVGVALUE1  First        Never       101-200 11.373780 12.210083 11.601819
# 3: AVGVALUE1  First    Sometimes        26-100 12.430039 13.134499 12.013299
# 4: AVGVALUE1 Second       Always MORE THAN 200 12.322651 11.816135 12.567860
# 5: AVGVALUE1 Second Amost always         11-25 10.765557 11.346688 10.524583
# 6: AVGVALUE2  First       Always          0-10  9.132899  9.060045  9.197005
# 7: AVGVALUE2  First        Never       101-200 12.896584 13.278680 13.000772
# 8: AVGVALUE2  First    Sometimes        26-100 10.972260 11.215390 10.828431
# 9: AVGVALUE2 Second       Always MORE THAN 200 11.704404 11.611072 11.749586
#10: AVGVALUE2 Second Amost always         11-25  8.086409  8.225030  8.028928

如果您需要将其作为列表而不是 data.table，您可以使用

将其拆分

lapply(avg.var, function(x) wide.wmeans[mean.v == x])
# [[1]]
#       mean.v  ITNUM         SATS        ASSETS     WGT1     WGT2     WGT3
# 1: AVGVALUE1  First       Always          0-10 11.66824 11.66819 11.66829
# 2: AVGVALUE1  First        Never       101-200 11.37378 12.21008 11.60182
# 3: AVGVALUE1  First    Sometimes        26-100 12.43004 13.13450 12.01330
# 4: AVGVALUE1 Second       Always MORE THAN 200 12.32265 11.81613 12.56786
# 5: AVGVALUE1 Second Amost always         11-25 10.76556 11.34669 10.52458
# 
# [[2]]
#       mean.v  ITNUM         SATS        ASSETS      WGT1      WGT2      WGT3
# 1: AVGVALUE2  First       Always          0-10  9.132899  9.060045  9.197005
# 2: AVGVALUE2  First        Never       101-200 12.896584 13.278680 13.000772
# 3: AVGVALUE2  First    Sometimes        26-100 10.972260 11.215390 10.828431
# 4: AVGVALUE2 Second       Always MORE THAN 200 11.704404 11.611072 11.749586
# 5: AVGVALUE2 Second Amost always         11-25  8.086409  8.225030  8.028928

关于R:data.table 按组计算多个变量的加权平均值，每个变量具有多个权重变量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40272404/

26

4

0

文章推荐： cmake - 在函数中设置 CMake 变量

文章推荐： xamarin - Objective Sharpie 有时会将 I 添加到 @protocols

文章推荐： r - 如何打破ggplot2中连续变量的背景颜色？

javascript if( 变量 = =(变量 2 || 变量 3 || ...))
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: How to nest OR statements in JavaScript? 有没有办法做到这一点:
JavaScript 变量 = 变量
在 JavaScript 中有没有办法让一个变量总是等于一个变量？喜欢var1 = var2但是当var2更新，也是var1 . 例子 var var1 = document.getElementBy
python - 如何阅读此 python 代码？变量 1 = 变量 2 == 变量 3
我正在努力理解这代表什么 var1 = var2 == var3 我的猜测是这等同于: if (var2 == var3): var1 = var2 最佳答案赋值 var1 = var2
php - 变量 $_GET 变量
这个问题已经有答案了: What does the PHP error message "Notice: Use of undefined constant" mean? (2 个回答) 已关闭 8
MySQL:变量=变量+select语句
我在临时表中有几条记录，我想从每条记录中获取一个值并将其添加到一个变量中，例如 color | caption -------------------------------- re
linux - 如何将原始字符串转换为变量(变量 --> $变量)？
如何将字符串转为变量(字符串变量--> $variable)？或者用逗号分隔的变量列表然后转换为实际变量。我有 2 个文件: 列名文件行文件我需要根据字符串匹配行文件中的整行，并根据列名文件命
PHP:来自与变量(变量-变量)连接的字符串的新变量
我有一个我无法解决的基本 php 问题，我也想了解为什么! $upperValueCB = 10; $passNodeMatrixSource = 'CB'; $topValue= '$uppe
php 变量 = 变量 1 ||变量2
这可能吗？ php $variable = $variable1 || $variable2? 如果 $variable1 为空则使用 $variable2 是否存在类似的东西？最佳答案 PHP 5
perl - for 循环不会修改 `my` 变量，但会修改 `our` 变量
在 Perl 5.20 中，for 循环似乎能够修改模块作用域的变量，但不能修改父作用域中的词法变量。 #!/usr/bin/env perl use strict; use warnings; ou
JavaScript: 变量 = 变量.concat(另一个变量);
为什么这不起作用: var variable; variable = variable.concat(variable2); $('#lunk').append(variable) 我无法弄清楚这一点
c++ - 指针的大小(*变量 VS 变量)
根据我的理解，在32位机器上，指针的sizeof是32位(4字节)，而在64位机器上，它是8字节。无论它们指向什么数据类型，它们都有固定的大小。我的计算机在 64 位上运行，但是当我打印包含 * 的大
java - 变量+=值和变量=变量+值之间的区别；
例如: int a = 10; a += 1.5; 这运行得很完美，但是 a = a+1.5; 此作业表示类型不匹配:无法从 double 转换为 int。所以我的问题是:+= 运算符和= 运算符
MySQL 语法错误 |变量 = 变量 + 整数
您好，我写了这个 MySQL 存储过程，但我一直收到这个语法错误 #1064 - You have an error in your SQL syntax; check the manual that
swift - 如果(变量 == 变量 + 5)
我试图在我的场景中显示特定的奖牌，这取决于你的高分是基于关卡的目标。 // Get Medal Colour if levelHighscore goalScore { sc
c++ - 变量 = !!变量与变量 =(变量!= 0)
我必须维护相当古老的 Visual C++ 源代码的大型代码库。我发现代码如下: bIsOk = !!m_ptr->isOpen(some Parameters) bIsOk的数据类型是bool，is
php - Javascript 变量，发送到 PHP 变量
我有一个从 MySQL 数据库中提取的动态产品列表。在 list 上有一个立即联系按钮，我正在使用一个 jquery Modal 脚本，它会弹出一个表单。我的问题是尝试将产品信息变量传递给该弹出窗
c++ - 类型(变量)与(类型)变量
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: What is the difference between (type)value and type(va
javascript - 变量 === 未定义与 typeof 变量 === "undefined"
jQuery Core Style Guidelines建议两种不同的方法来检查变量是否已定义。全局变量:typeof variable === "undefined" 局部变量:variable
jquery - 动态(变量)变量(如 php 中的？)
这个问题已经有答案了: 已关闭11 年前。 Possible Duplicate: “Variable” Variables in Javascript? 我想肯定有一种方法可以在 JavaScrip
c# - 变量 1 = 变量 2 = 真；优点缺点？
在语句中使用多重赋值有什么优点或缺点吗？在简单的例子中 var1 = var2 = true; 赋值是从右到左的(我相信 C# 中的所有赋值都是如此，而且可能是 Java，尽管我没有检查后者)。但是，

首页

博学

6Ren·AI

商城

R:data.table 按组计算多个变量的加权平均值，每个变量具有多个权重变量

到目前为止我尝试了什么: