- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对 data.table
还是个新手。我的问题类似于 this one 和 this one 。不同之处在于,我想按组计算多个变量的加权均值,但每个均值使用多个权重。
考虑以下data.table
(实际要大得多):
library(data.table)
set.seed(123456)
mydata <- data.table(CLID = rep("CNK", 10),
ITNUM = rep(c("First", "Second", "First", "First", "Second"), 2),
SATS = rep(c("Always", "Amost always", "Sometimes", "Never", "Always"), 2),
ASSETS = rep(c("0-10", "11-25", "26-100", "101-200", "MORE THAN 200"), 2),
AVGVALUE1 = rnorm(10, 10, 2),
AVGVALUE2 = rnorm(10, 10, 2),
WGT1 = rnorm(10, 3, 1),
WGT2 = rnorm(10, 3, 1),
WGT3 = rnorm(10, 3, 1))
#I set the key of the table to the variables I want to group by,
#so the output is sorted
setkeyv(mydata, c("CLID", "ITNUM", "SATS", "ASSETS"))
我想要实现的是按 ITNUM
定义的组计算 AVGVALUE1
和 AVGVALUE2
(可能还有更多变量)的加权平均值, SATS
, ASSETS
使用每个权重变量 WGT1
, WGT2
, WGT3
(可能还有更多)。因此,对于我想要计算加权均值的每个变量,我将按组(或任何权重数)获得三个加权均值。
我可以分别为每个变量做这件事,例如:
all.weights <- c("WGT1", "WGT2", "WGT3")
avg.var <- "AVGVALUE1"
split.vars <- c("ITNUM", "SATS", "ASSETS")
mydata[ , Map(f = weighted.mean, x = .(get(avg.var)), w = mget(all.weights),
na.rm = TRUE), by = c(key(mydata)[1], split.vars)]
我在 by
中添加了第一个键变量,尽管它是一个常量,因为我想将它作为输出中的一列。我得到:
CLID ITNUM SATS ASSETS V1 V2 V3
1: CNK First Always 0-10 11.66824 11.66819 11.66829
2: CNK First Never 101-200 11.37378 12.21008 11.60182
3: CNK First Sometimes 26-100 12.43004 13.13450 12.01330
4: CNK Second Always MORE THAN 200 12.32265 11.81613 12.56786
5: CNK Second Amost always 11-25 10.76556 11.34669 10.52458
但是,对于实际的 data.table
,我有更多的列来计算加权平均值(以及要使用的更多的权重),这样做会很麻烦逐个。我想象的是一个函数,其中每个变量(AVGVALUE1
、AVGVALUE2
等等)的平均值是用每个权重变量(WGT1
、WGT2
、WGT3
等),并将计算加权平均值的每个变量的输出添加到列表中。我想列表是最好的选择,因为如果所有估计都在同一个输出中,列数可能是无穷无尽的。所以像这样:
[[1]]
CLID ITNUM SATS ASSETS V1 V2 V3
1: CNK First Always 0-10 11.66824 11.66819 11.66829
2: CNK First Never 101-200 11.37378 12.21008 11.60182
3: CNK First Sometimes 26-100 12.43004 13.13450 12.01330
4: CNK Second Always MORE THAN 200 12.32265 11.81613 12.56786
5: CNK Second Amost always 11-25 10.76556 11.34669 10.52458
[[2]]
CLID ITNUM SATS ASSETS V1 V2 V3
1: CNK First Always 0-10 9.132899 9.060045 9.197005
2: CNK First Never 101-200 12.896584 13.278680 13.000772
3: CNK First Sometimes 26-100 10.972260 11.215390 10.828431
4: CNK Second Always MORE THAN 200 11.704404 11.611072 11.749586
5: CNK Second Amost always 11-25 8.086409 8.225030 8.028928
使用lapply
all.weights <- c("WGT1", "WGT2", "WGT3")
avg.vars <- c("AVGVALUE1", "AVGVALUE2")
split.vars <- c("ITNUM", "SATS", "ASSETS")
lapply(mydata, function(i) {
mydata[ , Map(f = weighted.mean, x = mget(avg.vars)[i], w = mget(all.weights),
na.rm = TRUE), by = c(key(mydata)[1], split.vars)]
})
Error in weighted.mean.default(x = dots[[1L]][[1L]], w = dots[[2L]][[1L]], :
'x' and 'w' must have the same length
使用mapply
myfun <- function(data, spl.v, avg.v, wgts) {
data[ , Map(f = weighted.mean, x = mget(avg.v), w = mget(all.weights),
na.rm = TRUE), by = c(key(data)[1], spl.v)]
}
mapply(FUN = myfun, data = mydata, spl.v = split.vars, avg.v = avg.vars,
wgts = all.weights)
Error: value for ‘AVGVALUE2’ not found
我试图将 mget(avg.v)
包装为列表 - .(mget(avg.v))
,但随后出现另一个错误:
Error in mapply(FUN = f, ..., SIMPLIFY = FALSE) :
could not find function "."
有人可以帮忙吗?
最佳答案
我们可以使用 outer
(对两个输入向量中值的所有组合执行函数)对向量化加权均值函数进行运算。通过在数据表的范围内定义 outer
使用的函数,我们可以让 get
评估 data.table 列:
wmeans = mydata[, {
f = function(X,Y) weighted.mean(get(X), get(Y));
vf = Vectorize(f);
outer(avg.var, all.weights, vf)},
by = split.vars]
这将所有方法放入单个列中(即“长”格式)。我们还可以添加更多列来指定每个列指的是哪个值/权重组合:
wmeans[, mean.v := expand.grid(avg.var, all.weights)[,1]]
wmeans[, mean.w := expand.grid(avg.var, all.weights)[,2]]
head(wmeans)
# ITNUM SATS ASSETS V1 mean.v mean.w
# 1: First Always 0-10 11.668243 AVGVALUE1 WGT1
# 2: First Always 0-10 9.132899 AVGVALUE2 WGT1
# 3: First Always 0-10 11.668192 AVGVALUE1 WGT2
# 4: First Always 0-10 9.060045 AVGVALUE2 WGT2
# 5: First Always 0-10 11.668287 AVGVALUE1 WGT3
# 6: First Always 0-10 9.197005 AVGVALUE2 WGT3
我们可以使用 dcast
将其 reshape 为一个在 avg.var 中很长但在 all.weights 中很宽的 data.table:
wide.wmeans = dcast(wmeans, mean.v+ITNUM+SATS+ASSETS ~ mean.w, value.var = "V1")
# mean.v ITNUM SATS ASSETS WGT1 WGT2 WGT3
# 1: AVGVALUE1 First Always 0-10 11.668243 11.668192 11.668287
# 2: AVGVALUE1 First Never 101-200 11.373780 12.210083 11.601819
# 3: AVGVALUE1 First Sometimes 26-100 12.430039 13.134499 12.013299
# 4: AVGVALUE1 Second Always MORE THAN 200 12.322651 11.816135 12.567860
# 5: AVGVALUE1 Second Amost always 11-25 10.765557 11.346688 10.524583
# 6: AVGVALUE2 First Always 0-10 9.132899 9.060045 9.197005
# 7: AVGVALUE2 First Never 101-200 12.896584 13.278680 13.000772
# 8: AVGVALUE2 First Sometimes 26-100 10.972260 11.215390 10.828431
# 9: AVGVALUE2 Second Always MORE THAN 200 11.704404 11.611072 11.749586
#10: AVGVALUE2 Second Amost always 11-25 8.086409 8.225030 8.028928
如果您需要将其作为列表而不是 data.table,您可以使用
将其拆分lapply(avg.var, function(x) wide.wmeans[mean.v == x])
# [[1]]
# mean.v ITNUM SATS ASSETS WGT1 WGT2 WGT3
# 1: AVGVALUE1 First Always 0-10 11.66824 11.66819 11.66829
# 2: AVGVALUE1 First Never 101-200 11.37378 12.21008 11.60182
# 3: AVGVALUE1 First Sometimes 26-100 12.43004 13.13450 12.01330
# 4: AVGVALUE1 Second Always MORE THAN 200 12.32265 11.81613 12.56786
# 5: AVGVALUE1 Second Amost always 11-25 10.76556 11.34669 10.52458
#
# [[2]]
# mean.v ITNUM SATS ASSETS WGT1 WGT2 WGT3
# 1: AVGVALUE2 First Always 0-10 9.132899 9.060045 9.197005
# 2: AVGVALUE2 First Never 101-200 12.896584 13.278680 13.000772
# 3: AVGVALUE2 First Sometimes 26-100 10.972260 11.215390 10.828431
# 4: AVGVALUE2 Second Always MORE THAN 200 11.704404 11.611072 11.749586
# 5: AVGVALUE2 Second Amost always 11-25 8.086409 8.225030 8.028928
关于R:data.table 按组计算多个变量的加权平均值,每个变量具有多个权重变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40272404/
这是代码片段。 请说出这种用小内存存储大数据的算法是什么。 public static void main(String[] args) { long longValue = 21474836
所以我使用 imap 从 gmail 和 outlook 接收电子邮件。 Gmail 像这样编码 =?UTF-8?B?UmU6IM69zq3OvyDOtc68zrHOuc67IG5ldyBlbWFpb
很久以前就学会了 C 代码;想用 Scheme 尝试一些新的和不同的东西。我正在尝试制作一个接受两个参数并返回两者中较大者的过程,例如 (define (larger x y) (if (> x
Azure 恢复服务保管库有两个备份配置选项 - LRS 与 GRS 这是一个有关 Azure 恢复服务保管库的问题。 当其驻留区域发生故障时,如何处理启用异地冗余的恢复服务保管库?如果未为恢复服务启
说,我有以下实体: @Entity public class A { @Id @GeneratedValue private Long id; @Embedded private
我有下一个问题。 我有下一个标准: criteria.add(Restrictions.in("entity.otherEntity", getOtherEntitiesList())); 如果我的
如果这是任何类型的重复,我会提前申请,但我找不到任何可以解决我的具体问题的内容。 这是我的程序: import java.util.Random; public class CarnivalGame{
我目前正在使用golang创建一个聚合管道,在其中使用“$ or”运算符查询文档。 结果是一堆需要分组的未分组文档,这样我就可以进入下一阶段,找到两个数据集之间的交集。 然后将其用于在单独的集合中进行
是否可以在正则表达式中创建 OR 条件。 我正在尝试查找包含此类模式的文件名列表的匹配项 第一个案例 xxxxx-hello.file 或者案例二 xxxx-hello-unasigned.file
该程序只是在用户输入行数时创建菱形的形状,因此它有 6 个 for 循环; 3 个循环创建第一个三角形,3 个循环创建另一个三角形,通过这 2 个三角形和 6 个循环,我们得到了一个菱形,这是整个程序
我有一个像这样的查询字符串 www.google.com?Department=Education & Finance&Department=Health 我有这些 li 标签,它们的查询字符串是这样
我有一个带有静态构造函数的类,我用它来读取 app.config 值。如何使用不同的配置值对类进行单元测试。我正在考虑在不同的应用程序域中运行每个测试,这样我就可以为每个测试执行静态构造函数 - 但我
我正在寻找一个可以容纳多个键的容器,如果我为其中一个键值输入保留值(例如 0),它会被视为“或”搜索。 map, int > myContainer; myContainer.insert(make_
我正在为 Web 应用程序创建数据库,并正在寻找一些建议来对可能具有多种类型的单个实体进行建模,每种类型具有不同的属性。 作为示例,假设我想为“数据源”对象创建一个关系模型。所有数据源都会有一些共享属
(1) =>CREATE TABLE T1(id BIGSERIAL PRIMARY KEY, name TEXT); CREATE TABLE (2) =>INSERT INTO T1 (name)
我不确定在使用别名时如何解决不明确的列引用。 假设有两个表,a 和 b,它们都有一个 name 列。如果我加入这两个表并为结果添加别名,我不知道如何为这两个表引用 name 列。我已经尝试了一些变体,
我的查询是: select * from table where id IN (1,5,4,3,2) 我想要的与这个顺序完全相同,不是从1...5,而是从1,5,4,3,2。我怎样才能做到这一点? 最
我正在使用 C# 代码执行动态生成的 MySQL 查询。抛出异常: CREATE TABLE dump ("@employee_OID" VARCHAR(50)); "{"You have an er
我有日期 2016-03-30T23:59:59.000000+0000。我可以知道它的格式是什么吗?因为如果我使用 yyyy-MM-dd'T'HH:mm:ss.SSS,它会抛出异常 最佳答案 Sim
我有一个示例模式,它的 SQL Fiddle 如下: http://sqlfiddle.com/#!2/6816b/2 这个 fiddle 只是根据 where 子句中的条件查询示例数据库,如下所示:
我是一名优秀的程序员,十分优秀!