- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我的 R 脚本的目的是从数据框中提取一列数据点,然后对 10 个数据点进行线性回归,保存系数,然后继续接下来的 10 个数据点,直到所有数据列的点已被使用(编辑:为了更清楚,这里我的意思是对数据点 1-10、然后是 2-11、然后是 3-12、然后是 4-13 等进行回归)。然后对来自同一列的所有系数进行排序,并将 5 个最高值的平均值存储在新的数据框中。然后脚本继续到原始数据框的下一列并再次进行整个回归,将顶部系数的平均值存储在“系数”数据框中。代码如下:
file_list <- list.files(path=getwd())
df <- read_excel(file_list[1])
name_vector <- colnames(df)
regressors<-setdiff(names(df),"Time [min]")
n = 33
coef2 <- data.frame()
coef3 <- data.frame()
#dat <- data.frame(df[[1]],df[[n]])
for (i in 1:length(regressors)) {
dat <- data.frame(df[[1]], df[[(i + 1)]])
for (i in 1:length(dat[[1]])) {
temp_data <- dat[i:(i + 15),]
linm <- lm(temp_data[[2]] ~ temp_data[[1]], data = temp_data)
Inter <- summary(linm)$coefficients[1]
Slope <- summary(linm)$coefficients[2]
coef2 <-
rbindlist(list(coef2, data.frame(Inter, Slope)), use.names = T)
}
mean <- coef2 %>%
arrange(desc(Slope)) %>%
slice(2:7)
meanx <- sapply(mean, FUN = mean)
meanx <-
data.frame(lapply(meanx, type.convert), stringsAsFactors = FALSE)
coef3 <- rbindlist(list(coef3, meanx), use.names = T)
coef2 <- data.frame()
z <- function(x)
(meanx[[2]] * x + meanx[[1]])
p <- qplot(dat[[1]],dat[[2]], data=dat, xlab="X-axis", ylab="Y-axis")+ylim(0,(max(dat[[2]], na.rm = TRUE)+100))
b <- stat_function(fun=z)
v <- print(p + b)
}
这里有一些示例数据:
Time A B C
330 102 179 303
340 103 194 308
350 101 198 348
360 114 199 347
370 120 214 371
380 131 224 420
390 128 226 430
400 128 246 481
410 138 260 541
420 146 277 583
430 155 290 640
440 154 315 653
代码如我所愿,但执行起来真的很慢。我能以某种方式提高效率吗?我是 R 的新手,很多代码都是从各种来源拼接在一起的。
提前致谢-威廉
最佳答案
slider package专门帮助进行此类轧制操作。使用时对于数据框,slide()
函数为每个窗口应用一个函数数据中的行数。您可以使用它来插入模型拟合过程。
首先阅读示例数据:
library(tidyverse)
df <- read.table(header = TRUE, text = "
Time A B C
330 102 179 303
340 103 194 308
350 101 198 348
360 114 199 347
370 120 214 371
380 131 224 420
390 128 226 430
400 128 246 481
410 138 260 541
420 146 277 583
430 155 290 640
440 154 315 653")
然后我们可以用 map_dfr()
替换输出结果的外层循环将结果合并到一个数据框中,并使用 slide_dfr()
进行内循环它的作用相同,但对于一个行窗口:
window_width <- 10
outcomes <- c("A", "B", "C")
# Estimate coefficients for each outcome
coefs <- map_dfr(set_names(outcomes), function(outcome) {
# Fit model for each complete window in `df`
slider::slide_dfr(df, function(data) {
# Build model formula for outcome and fit
f <- reformulate("Time", outcome)
m <- lm(formula = f, data = data)
set_names(coef(m), c("Inter", "Slope"))
}, .after = window_width - 1, .complete = TRUE, .names_to = "Window")
}, .id = "Outcome")
coefs
#> Outcome Window Inter Slope
#> 1 A 1 -67.30909 0.5024242
#> 2 A 2 -89.20000 0.5600000
#> 3 A 3 -87.54545 0.5545455
#> 4 B 1 -158.98182 1.0151515
#> 5 B 2 -191.86667 1.1030303
#> 6 B 3 -265.72727 1.2927273
#> 7 C 1 -749.07273 3.0993939
#> 8 C 2 -939.80000 3.6018182
#> 9 C 3 -1019.60000 3.8000000
请注意,我们保留了上方所有窗口的系数,而不仅仅是顶部5.结果总结最好保存在外面循环,如果你有足够的内存。这样,如果你决定你毕竟想要一个不同的总结,你不必重做昂贵的拟合模型的一部分。
有了整洁数据框中的系数,很容易总结:
n_top_slopes <- 5
mean_top_coefs <- coefs %>%
group_by(Outcome) %>%
slice_max(Slope, n = n_top_slopes) %>%
summarise(across(c(Inter, Slope), mean))
#> `summarise()` ungrouping output (override with `.groups` argument)
mean_top_coefs
#> # A tibble: 3 x 3
#> Outcome Inter Slope
#> <chr> <dbl> <dbl>
#> 1 A -81.4 0.539
#> 2 B -206. 1.14
#> 3 C -903. 3.50
用数据绘制这些线性拟合的快速方法是使用 geom_abline()
:
df_long <- df %>%
pivot_longer(
cols = all_of(outcomes),
names_to = "Outcome",
values_to = "Value"
)
scatterplot <- function() {
ggplot(df_long, aes(Time, Value)) +
facet_wrap(~ Outcome) + geom_point()
}
scatterplot() +
geom_abline(data = mean_top_coefs, aes(intercept = Inter, slope = Slope))
稍微复杂但更通用的方法是构建首先是一个新的预测数据框,然后用 geom_line()
绘制:
mean_top_fits <- df_long %>%
inner_join(mean_top_coefs, by = "Outcome") %>%
mutate(Value = Inter + Slope * Time)
scatterplot() + geom_line(data = mean_top_fits)
使用这种方法,我们可以,例如绘制每个单独窗口的拟合:
time_range <- function(window) {
range(df$Time[seq(window, window + window_width - 1)])
}
# Calculate predicted lines for each window
window_fits <- coefs %>%
mutate(Time = map(Window, time_range)) %>%
unnest_longer(Time) %>%
mutate(Value = Inter + Slope * Time)
scatterplot() + geom_line(data = window_fits, aes(group = Window))
关于r - 我可以使 for 循环中的 for 循环更有效率吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64897113/
我是 PHP 新手。我一直在脚本中使用 for 循环、while 循环、foreach 循环。我想知道 哪个性能更好? 选择循环的标准是什么? 当我们在另一个循环中循环时应该使用哪个? 我一直想知道要
我在高中的编程课上,我的作业是制作一个基本的小计和顶级计算器,但我在一家餐馆工作,所以制作一个只能让你在一种食物中读到。因此,我尝试让它能够接收多种食品并将它们添加到一个价格变量中。抱歉,如果某些代码
这是我正在学习的一本教科书。 var ingredients = ["eggs", "milk", "flour", "sugar", "baking soda", "baking powder",
我正在从字符串中提取数字并将其传递给函数。我想给它加 1,然后返回字符串,同时保留前导零。我可以使用 while 循环来完成此操作,但不能使用 for 循环。 for 循环只是跳过零。 var add
编辑:我已经在程序的输出中进行了编辑。 该程序要求估计给定值 mu。用户给出一个值 mu,同时还提供了四个不等于 1 的不同数字(称为 w、x、y、z)。然后,程序尝试使用 de Jaeger 公式找
我正在编写一个算法,该算法对一个整数数组从末尾到开头执行一个大循环,其中包含一个 if 条件。第一次条件为假时,循环可以终止。 因此,对于 for 循环,如果条件为假,它会继续迭代并进行简单的变量更改
现在我已经习惯了在内存非常有限的情况下进行编程,但我没有答案的一个问题是:哪个内存效率更高;- for(;;) 或 while() ?还是它们可以平等互换?如果有的话,还要对效率问题发表评论! 最佳答
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 8 年前。 我正在尝试创建一个小程序,我可以在其中读取该程序的单词。如果单词有 6
这个问题在这里已经有了答案: python : list index out of range error while iteratively popping elements (12 个答案) 关
我正在尝试向用户请求 4 到 10 之间的整数。如果他们回答超出该范围,它将进入循环。当用户第一次正确输入数字时,它不会中断并继续执行 else 语句。如果用户在 else 语句中正确输入数字,它将正
我尝试创建一个带有嵌套 foreach 循环的列表。第一个循环是循环一些数字,第二个循环是循环日期。我想给一个日期写一个数字。所以还有另一个功能来检查它。但结果是数字多次写入日期。 Out 是这样的:
我想要做的事情是使用循环创建一个数组,然后在另一个类中调用该数组,这不会做,也可能永远不会做。解决这个问题最好的方法是什么?我已经寻找了所有解决方案,但它们无法编译。感谢您的帮助。 import ja
我尝试创建一个带有嵌套 foreach 循环的列表。第一个循环是循环一些数字,第二个循环是循环日期。我想给一个日期写一个数字。所以还有另一个功能来检查它。但结果是数字多次写入日期。 Out 是这样的:
我正在模拟一家快餐店三个多小时。这三个小时分为 18 个间隔,每个间隔 600 秒。每个间隔都会输出有关这 600 秒内发生的情况的统计信息。 我原来的结构是这样的: int i; for (i=0;
这个问题已经有答案了: IE8 for...in enumerator (3 个回答) How do I check if an object has a specific property in J
哪个对性能更好?这可能与其他编程语言不一致,所以如果它们不同,或者如果你能用你对特定语言的知识回答我的问题,请解释。 我将使用 c++ 作为示例,但我想知道它在 java、c 或任何其他主流语言中的工
这个问题不太可能帮助任何 future 的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visit
我是 C 编程和编写代码的新手,以确定 M 测试用例的质因数分解。如果我一次只扫描一次,该功能本身就可以工作,但是当我尝试执行 M 次时却惨遭失败。 我不知道为什么 scanf() 循环有问题。 in
这个问题已经有答案了: JavaScript by reference vs. by value [duplicate] (4 个回答) 已关闭 3 年前。 我在使用 TSlint 时遇到问题,并且理
我尝试在下面的代码中添加 foreach 或 for 循环,以便为 Charts.js 创建多个数据集。这将允许我在此折线图上创建多条线。 我有一个 PHP 对象,我可以对其进行编码以稍后填充变量,但
我是一名优秀的程序员,十分优秀!