- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
(我的第一个 StackFlow 问题)
我的目标是改进用于识别哪些 NetApp 文件共享与哪些 AD 权限分配组相关的 ETL 过程。当前名为“TreeSize”的应用程序扫描大量卷并输出大量大型 .CSV 文件 (35mb+)。我想合并此数据并删除每个组(或命名用户)不以大写 G 或 D('^[GD]')开头的所有权限信息。有超过 700,000 行要处理,目前我需要超过 24 小时才能运行。我希望有更好的方法来更有效地处理这些数据,从而大幅缩短时间。
这是所有文件合并后类似于实际数据的测试数据。使用 rownum 调整数据大小。 (真实数据700000+)
测试数据
set.seed(42)
rownum <- 2000 #Real number over 700000
i <- 1
datalist <- list()
while (i <= rownum) {
randomStr1 <- paste(sample(c(0:9, letters, LETTERS[4:7], "-"),10, replace=TRUE),collapse="")
randomStr2 <- paste(sample(c(0:9, letters, LETTERS[4:7], " "),10, replace=TRUE),collapse="")
randomStr3 <- paste(sample(c(0:9, letters, LETTERS[4:7], " & "),10, replace=TRUE),collapse="")
randomStr4 <- sample(c("full", "+r+w+x", "+r+x"),3)
datalist$volume[i] <- rep(sample(LETTERS[1:6]))[1]
datalist$permissions[i] <- paste(c(randomStr1,randomStr2,randomStr3),randomStr4,sep = ': ',collapse = ' | ')
i = i+1
}
dat <- data.frame(datalist)
View(dat)
我创建了一个循环遍历合并数据的 WHILE 循环。我首先使用 STRSPLIT 创建一个向量,其中包含“| 之间的每个向量元素” “每根 pipe 。然后我在 GREP 命令中传递每个矢量元素,搜索 (‘^[GD]’) 的 RegExp。如果找到它,它会保留向量元素,如果找到多个元素,它会将数据折叠起来并放在分号和空格之间(“;”)
这是我目前的做法。
i <- 1
while (i <= length(dat$permissions)) {
df <- strsplit(dat$permissions, " \\| |: ")[[i]] #create a vector containing each vector element
dat$permissions[i] <- paste(df[grep('^[GD]', df)], collapse = "; ") #Only keep where starts with G or D then Paste together
print(paste(i, " of ", length(dat$permissions), " ", dat$permissions[i]))
i = i + 1 }
View(dat)
完成后,我导出到一个 .CSV 文件以完成转换。
有什么更好的方法来处理这些数据以大幅减少处理时间?
最佳答案
加快速度的一个选择是避免拆分字符串并使用 stringr::str_extract_all()
直接提取匹配项:
library(stringr)
library(purrr)
map_chr(str_extract_all(dat$permissions, "(?<=^|\\| )[GD].*?(?=:)"), str_c, collapse = "; ")
这进一步改进了 thelatemail 已经很快的替代方案:
microbenchmark::microbenchmark(
extract = map_chr(str_extract_all(dat$permissions, "(?<=^|\\| )[GD].*?(?=:)"), str_c, collapse = "; "),
splitmatch = sapply(strsplit(dat$permissions, " \\| |: "), \(x) paste(x[grepl("^[GD]", x)], collapse = "; ")),
check = "equal"
)
Unit: milliseconds
expr min lq mean median uq max neval
extract 5.8841 6.14375 6.681234 6.3134 6.41655 15.1264 100
splitmatch 23.6010 24.00005 25.501808 24.2499 24.78320 40.4140 100
关于R:在大型数据集的矢量元素上使用 STRSPLIT 和 GREP 花费的时间太长,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71134119/
我一直在读一本分配给类(class)的书,它提到数组访问需要 O(1) 时间。我意识到这非常快(也许尽可能快),但是如果您有一个循环必须多次引用它,那么分配一个临时变量以在数组中查找值有什么好处吗?或
我一直试图找出为什么这个查询花了这么长时间。以前,它的执行时间约为 150 毫秒到 200 毫秒,但现在需要 25 秒或更长时间。这是从昨晚到今天之间的事。唯一改变的就是将数据添加到表中。 根据下面的
我有一个 ng repeat 重复数据。 - data.image(src)部分为null,src=null的不再重复。 我用一个简单的 ng-if 解决了它。
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率,大约需要 4 分钟。但是 pcov 不支持分支覆盖,所以我决定使用 xdebug。 使用 xdebug 测试执行,
我已经被这个问题困扰了一段时间了,我被难住了。 Automapper 需要 4 秒来映射 19 个对象。在我的机器(24GB 内存,3.6Ghz i7)上,该操作应该花费毫秒或纳秒。 这是映射调用。
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率,大约需要 4 分钟。但是 pcov 不支持分支覆盖,所以我决定使用 xdebug。 使用 xdebug 测试执行,
我在机器 A 上有一个 java 进程通过 TCP 与机器 B 上的 Tomcat 通信。 TCP 连接(只是 syn-syn/ack 交换)始终需要 100 毫秒的数量级,而 ping 请求需要 1
我做了一项任务,从 sqlserver 获取超过 200 万条记录并将它们填充到 Asp.net GridView 中。 问题是,查询需要超过 2 分钟才能获得记录,而我的查询现在已经完全优化。 当我
我希望将 165 秒变成 2:40 而不是 0:2:45 函数需要能够适应秒值的大小。 我知道有无数种方法可以做到这一点,但我正在寻找一种干净的方法来做到这一点,除了 jQuery 之外没有任何外部库
我是一名优秀的程序员,十分优秀!