- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您好,我正在尝试针对 Monte Carlo Power 研究优化以下程序。我首先使用一种取自 Efron 和 Tibshirani (1993) 的算法来找到均值相等的置换检验(上尾)的 p 值。我编写了一个名为 perm_test() 的函数,其输出是单个 p 值。然后,我在另一个程序 power_p() 中调用此函数,该程序模拟 1000 个排列测试(返回 1000 个 p 值)。我的功效估计是这 1000 个 p 值在统计上显着的比例,即 < 0.05。整个过程大约需要我运行 8 分钟(2020 MacBook pro)。我想知道是否有人在优化此过程以使其运行得更快方面有任何建议。很多thnx。
perm_test <- function(delta) {
# Permutation test as described in Efron and Tibshirani (1993), (Algorithm 15.1, p208)
# Draw random samples from a normal distribution
x <- rnorm(10, mean = delta, sd = 1)
y <- rnorm(10, mean = 0, sd = 1)
# observed diff in means, denoted as D_obs
D_obs <- mean(x) - mean(y)
# Create a data frame "N" with n_x + n_y obs (20 rows in our case)
N <- data.frame("v" = c(x, y))
# create a group variable "g" indicating which group each observation belongs to
N$g <- as.factor(c(rep("x", 10), rep("y", 10)))
# arrange column "v" in ascending order
# notice that column "g" is also re-ordered
N <- arrange(N, v)
###############################################################################################
# There are 20 choose 10 (184756) possibilities for the ordering of "g" #
# corresponding to all possible ways of partitioning 20 elements into two subsets of size 10 #
# we take only a random sample of 5000 from those 184756 possibilities #
###############################################################################################
# Initialize variables
B <- 5000
x_mean <- 0
y_mean <- 0
D_perm <- rep(0, 5000)
# Loop to randomly generate 5000 different orderings of "g"
for (i in 1:B) {
# Shuffle the ordering of "g"
N$g <- sample(N$g)
# Permuted means of x and y
x_mean <- tapply(N$v, N$g, mean)[1]
y_mean <- tapply(N$v, N$g, mean)[2]
# Find permuted diff in means, denoted as D_perm
D_perm[i] <- x_mean - y_mean
}
# Find p-value
P_perm <- sum(D_perm >= D_obs)/ B
# Output
return(round(P_perm, digits = 5))
}
这是模拟 1000 次排列测试的程序:
power_p <- function(numTrial, delta) {
# Initilize variables
P_p <- rep(0, numTrial)
pwr_p <- 0
# Simulation
P_p <- replicate(n = numTrial, expr = perm_test(delta))
# Power estimates are the proportions of p-values that are significant (i.e. less than 0.05)
pwr_p <- sum(P_p < 0.05) / numTrial
# Output
return(round(pwr_p, digits = 5))
}
最佳答案
perm_test2 <- function(delta) {
x <- rnorm(10, mean = delta, sd = 1)
y <- rnorm(10, mean = 0, sd = 1)
D_obs <- mean(x) - mean(y)
v <- c(x, y)
g <- rep(1:2, each = 10)
B <- 5000
y_mean <- x_mean <- 0
D_perm <- rep(0, B)
for (i in 1:B) {
ii <- sample(g) == 1L
D_perm[i] <- (sum(v[ii]) - sum(v[!ii]))/10
}
P_perm <- sum(D_perm >= D_obs)/ B
return(round(P_perm, digits = 5))
}
与更复杂的方法相比,我提出了上述方法,其中我对您现有的代码进行了一些简单的改进。
data.frame
,每次只需要花费不必要的时间来子集向量tapply(N$v, N$g, mean)
的 2 次调用是最慢的部分。mean(x)
比 sum(x)/n
慢,它会做额外的检查等,所以在这种情况下我们可以使用更快的方法。因为内部循环将执行 1000x5000 次(sims x B)。bench::mark(perm_test_org(0.5), perm_test2(0.5), iterations = 5, check = F,
relative = T)[, 1:8]
# A tibble: 2 x 8
# expression min median `itr/sec` mem_alloc `gc/sec` n_itr n_gc
# <bch:expr> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl>
# 1 perm_test_org(0.5) 15.5 15.3 1 1.00 1 5 16
# 2 perm_test2(0.5) 1 1 13.5 1 1.69 5 2
在我的系统上大约快 15 倍。 1000 次迭代耗时 33.89 秒。
我们可以通过以下方式进一步提高速度:
sample
替换为 sample.int
g
向量来随机选择两个组v
的两个部分求和,因为我们可以在循环之前 sum(v)
,因此我们可以在循环内少做一个求和最后计算结果值。perm_test3 <- function(delta) {
x <- rnorm(10, mean = delta, sd = 1)
y <- rnorm(10, mean = 0, sd = 1)
D_obs <- mean(x) - mean(y)
v <- c(x, y)
B <- 5000
s <- sum(v)
D_perm2 <- rep(0, B)
for (i in 1:B) {
D_perm2[i] <- sum(v[sample.int(10) < 6])
}
D_perm <- D_perm2 - (s - D_perm2)
P_perm <- sum(D_perm/10 >= D_obs) / B
return(round(P_perm, digits = 5))
}
在 +/- 20 秒内运行 1000 次迭代。现在最慢的部分是重复调用 sample.int
。您可以查看更快的功能: https://www.r-bloggers.com/2019/04/fast-sampling-support-in-dqrng/
关于r - 如何在 R 中优化以下程序以提高性能? (涉及计算密集型置换测试的蒙特卡罗模拟),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64910192/
在这段令人惊叹的视频 ( https://www.youtube.com/watch?v=udix3GZouik ) 中,Alex Blom 谈到了 Ember 在移动世界中的“黑客攻击”。 在 22
我们希望通过我们的应用收集使用情况统计信息。因此,我们希望在服务器端的某个地方跟踪用户操作。 就性能而言,哪个选项更合适: 在 App Engine 请求日志中跟踪用户操作。即为每个用户操作写入一个日
在针对对象集合的 LINQ 查询的幕后究竟发生了什么?它只是语法糖还是发生了其他事情使其更有效的查询? 最佳答案 您是指查询表达式,还是查询在幕后的作用? 查询表达式首先扩展为“普通”C#。例如: v
我正在构建一个简单的照片库应用程序,它在列表框中显示图像。 xaml 是:
对于基于 Web 的企业应用程序,使用“静态 Hashmap 存储对象” 和 apache java 缓存系统有何优缺点?哪一个最有利于性能并减少堆内存问题 例如: Map store=Applica
我想知道在性能方面存储类变量的最佳方式是什么。我的意思是,由于 Children() 函数,存储一个 div id 比查找所有其他类名更好。还是把类名写在变量里比较好? 例如这样: var $inne
我已经阅读了所有这些关于 cassandra 有多快的文章,例如单行读取可能需要大约 5 毫秒。 到目前为止,我不太关心我的网站速度,但是随着网站变得越来越大,一些页面开始需要相当多的查询,例如一个页
最近,我在缓存到内存缓存之前的查询一直需要很长时间才能处理!在这个例子中,它花费了 10 秒。在这种情况下,我要做的就是获得 10 个最近的点击。 我感觉它加载了所有 125,592 行然后只返回 1
我找了几篇文章(包括SA中的一些问题),试图找到基本操作的成本。 但是,我尝试制作自己的小程序,以便自己进行测试。在尝试测试加法和减法时,我遇到了一些问题,我用简单的代码向您展示了这一点
这个问题在这里已经有了答案: Will Java app slow down by presence of -Xdebug or only when stepping through code? (
我记得很久以前读过 with() 对 JavaScript 有一些严重的性能影响,因为它可能对范围堆栈进行非确定性更改。我很难找到最近对此的讨论。这仍然是真的吗? 最佳答案 与其说 with 对性能有
我们有一个数据仓库,其中包含非规范化表,行数从 50 万行到 6 多万行不等。我正在开发一个报告解决方案,因此出于性能原因我们正在使用数据库分页。我们的报告有搜索条件,并且我们已经创建了必要的索引,但
我有一条有效的 SQL 语句,但需要很长时间才能处理 我有一个 a_log 表和一个 people 表。我需要在 people 表中找到给定人员的每个 ID 的最后一个事件和关联的用户。 SELECT
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
通常当我建立一个站点时,我将所有的 CSS 放在一个文件中,并且一次性定义与一组元素相关的所有属性。像这样: #myElement { color: #fff; background-
两者之间是否存在任何性能差异: p { margin:0px; padding:0px; } 并省略最后的分号: p { margin:0px; padding:0px } 提前致谢!
我的应用程序 (PHP) 需要执行大量高精度数学运算(甚至可能出现一共100个数字) 通过这个论坛的最后几篇帖子,我发现我必须使用任何高精度库,如 BC Math 或 GMP,因为 float 类型不
我一直在使用 javamail 从 IMAP 服务器(目前是 GMail)检索邮件。 Javamail 非常快速地从服务器检索特定文件夹中的消息列表(仅 id),但是当我实际获取消息(仅包含甚至不包含
我非常渴望开发我的第一个 Ruby 应用程序,因为我的公司终于在内部批准了它的使用。 在我读到的关于 Ruby v1.8 之前的所有内容中,从来没有任何关于性能的正面评价,但我没有发现关于 1.9 版
我是 Redis 的新手,我有一个包含数百万个成员(member) ID、电子邮件和用户名的数据集,并且正在考虑将它们存储在例如列表结构中。我认为 list 和 sorted set 可能最适合我的情
我是一名优秀的程序员,十分优秀!