- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
亲爱的 stackoverflow 社区,
我在一个特定的数据集上静坐了一段时间,该数据集相当庞大(nrow= ca. 5 亿)。经过一系列的数据操作,数据集基本上包括以下重要列:“ParticleId”、“flag”、“Volume”和“reduction”。
我写了一个带有 2 个 if-else 子句的 for 循环来减少每一行的数量。该循环经过测试并且可以完美地用于测试目的,最多 20k 行的子集。不幸的是,当应用于孔数据集(500mio.rows)时,性能呈指数下降。我尝试应用多种矢量化方法,但似乎遗漏了一些东西。非常感谢您对这个特定问题进行矢量化的帮助和想法。
请在下面找到 for-loop 和 test-dataset:
dataset <- data.frame(1:20)
dataset$ParticleId <- c(1,1,1,1,2,2,2,2,2,3,3,4,4,4,4,4,4,4,4,4)
dataset$flag <- c(T,T,T,F,T,T,F,F,T,T,T,T,T,T,F,F,F,F,T,T)
dataset$Volume <- 0.01
dataset$reduction <- c(1.21e-03,1.21e-04,1.21e-03,1.21e-06,1.21e-03,1.21e-03,1.21e-04,1.21e-03,1.21e-06,1.21e-03,1.21e-03,1.21e-04,1.21e-03,1.21e-06,1.21e-03,1.21e-03,1.21e-04,1.21e-03,1.21e-06,1.21e-03)
for(i in 2:nrow(dataset)){
if(dataset[i,]$flag == TRUE & dataset[i,]$ParticleId == dataset[i-1,]$ParticleId){
dataset[i,]$Volume <- dataset[i-1,]$Volume - dataset[i-1,]$reduction
}else{
if(dataset[i,]$flag == FALSE & dataset[i,]$ParticleId == dataset[i-1,]$ParticleId){
dataset[i,]$Volume <- dataset[i-1,]$Volume
}else{
dataset[i,]$Volume <- dataset[i,]$Volume
}
}
}
如果需要,我可以提供更大的原始数据子集。测试数据集的创建只是提供了数据可能是什么样子的想法......
最佳答案
这会产生您想要的输出,并且应该比您使用 for
循环和 if .. else ..
语句的初始方法快很多:
library(dplyr)
dataset %>%
group_by(ParticleId) %>%
mutate(Volume = Volume[1L] - cumsum(lag(reduction, default = 0L)*flag))
#Source: local data frame [20 x 5]
#Groups: ParticleId
#
# X1.20 ParticleId flag Volume reduction
#1 1 1 TRUE 0.01000000 1.21e-03
#2 2 1 TRUE 0.00879000 1.21e-04
#3 3 1 TRUE 0.00866900 1.21e-03
#4 4 1 FALSE 0.00866900 1.21e-06
#5 5 2 TRUE 0.01000000 1.21e-03
#6 6 2 TRUE 0.00879000 1.21e-03
#7 7 2 FALSE 0.00879000 1.21e-04
#8 8 2 FALSE 0.00879000 1.21e-03
#9 9 2 TRUE 0.00758000 1.21e-06
#10 10 3 TRUE 0.01000000 1.21e-03
#11 11 3 TRUE 0.00879000 1.21e-03
#12 12 4 TRUE 0.01000000 1.21e-04
#13 13 4 TRUE 0.00987900 1.21e-03
#14 14 4 TRUE 0.00866900 1.21e-06
#15 15 4 FALSE 0.00866900 1.21e-03
#16 16 4 FALSE 0.00866900 1.21e-03
#17 17 4 FALSE 0.00866900 1.21e-04
#18 18 4 FALSE 0.00866900 1.21e-03
#19 19 4 TRUE 0.00745900 1.21e-06
#20 20 4 TRUE 0.00745779 1.21e-03
这是做什么的:
mutate
用于修改/添加数据列。在本例中,我们修改现有列“Volume”。我们取每组中 Volume 的第一个元素 (Volume[1L]
),然后从该值中减去 reduction*flag
的累积和。因为我们将 reduction
与 flag
相乘,这是一个逻辑列,所以只要 flag
为 TRUE
,reduction 就会乘以 1当 flag
为 FALSE
时,它会乘以 0。这意味着,如果 flag
为 FALSE
,我们从 Volume 列中减去 0(无)(即它保持原样)。此外,我们使用 lag(Volume, default = 0)
因为我们想在每一行中减去前一个(滞后)中存在的 reduction
值排。 default = 0
确保,如果组中没有前一行,即我们在组的第一行上操作,则先前的减少值假定为 0 - 因此,我们不要从第一行的音量值中减去任何内容。default = 0L
):它用于表示 integer
- 使用较少内存的值因此可以帮助加快代码速度,因为您正在处理大量数据。我在 data.table 中尝试使用相同的代码(可能会更快一点):
library(data.table)
setkey(setDT(dataset), ParticleId)[,
Volume:=Volume[1L]-cumsum(c(0L, head(reduction, -1L))*flag), ParticleId]
我认为在最新版本的 data.table (1.9.5) 中,您可以使用 shift
来创建滞后缩减。
该方法与此处的 dplyr 解决方案基本相同。但在开始之前,我们使用 setDT()
将 data.frame 转换为 data.table
对象并使用 setkey()
设置键.其余部分非常相似,除了 data.table 通过引用更新数据(使用 :=
时)而不是 lag(..., default = 0)
我们使用 c(0, head(reduction, -1))
.
关于r - 如何通过替换 "for-loop"和 "if-else"子句来提高大型数据集的性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28025482/
我正在比较工作簿中的工作表。该工作簿有两张名为 PRE 和 POST 的工作表,每张工作表都有相同的 19 列。行数每天都不同,但特定一天的两张表的行数相同。该宏将 PRE 工作表中的每一行与 POS
我有一个对象数组,我一次循环遍历该数组一个对象,然后进行几次检查以查看该数组中的每个对象是否满足特定条件,如果该对象满足此条件,则复制一个属性将此对象放入数组中(该属性还包含另一个对象)。 for(v
我正在编写一个必须非常快的应用程序。我使用 Qt 5.5 和 Qt Creator,Qt 的 64 位 MSVC2013 编译版本。 我使用非常困倦的 CS 来分析我的应用程序,我看到占用最多独占时间
我有以下 CountDownTimer 在我的 Android 应用程序中不断运行。 CountDownTimer timer_status; timer_status = new CountDown
有一个优化问题,我必须调用随机森林回归器的预测函数数千次。 from sklearn.ensemble import RandomForestRegressor rfr = RandomForestR
我正在努力提高现有 Asp.Net Web 应用程序的数据访问层的性能。场景是。 它是一个基于 Web 的 Asp.Net 应用程序。 数据访问层使用 NHibernate 1.2 构建并作为 WCF
我在我的 Intel Edison 上运行 Debian,并尝试使用 ffmpeg 通过 USB 网络摄像头捕获视频。我正在使用的命令是: ffmpeg -f video4linux2 -i /dev
我有一个 For循环遍历整数 1 到 9 并简单地找到与该整数对应的最底部的条目(即 1,1,1,2,3,4,5 将找到第三个“1”条目)并插入一个空白行。我将数字与仅对应于此代码的应用程序的字符串“
我有一个带有非规范化架构(1 个表)的 postgresql 数据库,其中包含大约 400 万个条目。现在我有这个查询: SELECT count(*) AS Total, (SELECT c
在 Ltac 中实现复杂的策略时,有一些 Ltac 命令或策略调用我预计会失败以及预期失败(例如终止 repeat 或导致回溯)。这些故障通常在故障级别 0 时引发。 更高级别引发的故障“逃避”周
我正在尝试提高 ansible playbook 的性能。我有一个测试剧本如下: --- - name: Test hosts: localhost connection: local g
我正在使用 axios从 Azure 存储 Blob 下载文件 (~100MB)。 axios({ method: 'get', url: uri, onDownloadProgress:
我有一个 ClojureScript 程序,主要对集合执行数学计算。它是在惯用的、独立于主机的 Clojure 中开发的,因此很容易对其进行基准测试。令我惊讶的是(与答案对 Which is fast
我有一个程序必须在硬件允许的情况下尽快发出数千个 http 请求。在现实世界中,这些连接中的每一个都将连接到一个离散的服务器,但我已经编写了一个测试程序来帮助我模拟负载(希望如此)。 我的程序使用 A
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在计算 Clojure 中 3d 点云的边界框。点云表示为 Java 原始浮点数组,点云中的每个点都使用 4 个浮点存储,其中最后一个浮点未使用。像这样: [x0 y0 z0 u0 x1 y1
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我正在尝试使用rayshader 包制作图像。我很高兴能够使用如下代码创建一个 png 文件: library(ggplot2) library(rayshader) example_plot <-
更新 显然,jQuery 模板可以被编译,并且它有助于显示带有 if 语句 的模板的性能 here . 但是如图here ,预编译的 jQuery 模板对我的情况没有多大作用,因为我的模板不包含逻辑
我是编程新手。我有一个启用分页的 ScrollView ,其中包含许多页面(最多十个),并且在每个页面上都有一个自定义按钮。每个自定义按钮都有一个自定义图像。我在 Interface Builder
我是一名优秀的程序员,十分优秀!