r - 将 data.table 拆分为大致相等的部分-6ren

r - 将 data.table 拆分为大致相等的部分

转载作者：行者123 更新时间：2023-12-04 11:56:11

24

4

要并行化任务，我需要将大 data.table 拆分为大致相等的部分，
将通过列定义的组保持在一起，id .认为:
N是数据的长度
k是 id 的不同值的数量
M是所需零件的数量

这个想法是 M << k << N，所以 split 为 id不好。

library(data.table)
library(dplyr)

set.seed(1)
N <- 16 # in application N is very large
k <- 6  # in application k << N
dt <- data.table(id = sample(letters[1:k], N, replace=T), value=runif(N)) %>%
      arrange(id)
t(dt$id)

#     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14] [,15] [,16]
# [1,] "a"  "b"  "b"  "b"  "b"  "c"  "c"  "c"  "d"  "d"   "d"   "e"   "e"   "f"   "f"   "f"

在此示例中， M=3 的所需拆分是 {{a,b}, {c,d}, {e,f}}和 M=4是 {{a,b}, {c}, {d,e}, {f}}
更一般地，如果 id 是数字，截止点应该是 quantile(id, probs=seq(0, 1, length.out = M+1), type=1)或一些类似的分割成大致相等的部分。

什么是有效的方法来做到这一点？

最佳答案

初步评论
我推荐阅读什么 the main author of data.table has to say关于与它的并行化。
我不知道你对data.table有多熟悉，但你可能忽略了它的by争论...？从下面引用@eddi 的评论...

Instead of literally splitting up the data - create a new "parallel.id" column, and then call
dt[, parallel_operation(.SD), by = parallel.id] 

回答，假设您不想使用 by
按大小对 ID 进行排序:

ids   <- names(sort(table(dt$id)))
n     <- length(ids)

重新排列，以便我们在大 ID 和小 ID 之间交替， following Arun's interleaving trick :

alt_ids <- c(ids, rev(ids))[order(c(1:n, 1:n))][1:n]

按顺序拆分 id，每个组中的 ID 数量大致相同(如 zero323's answer ):

gs  <- split(alt_ids, ceiling(seq(n) / (n/M)))

res <- vector("list", M)
setkey(dt, id)
for (m in 1:M) res[[m]] <- dt[J(gs[[m]])] 
# if using a data.frame, replace the last two lines with
# for (m in 1:M) res[[m]] <- dt[id %in% gs[[m]],]

检查尺寸是否太差:

# using the OP's example data...

sapply(res, nrow)
# [1] 7 9              for M = 2
# [1] 5 5 6            for M = 3
# [1] 1 6 3 6          for M = 4
# [1] 1 4 2 3 6        for M = 5

虽然我强调 data.table在顶部，这应该适用于 data.frame ，也。

关于r - 将 data.table 拆分为大致相等的部分，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32125795/

24

4

0

文章推荐： r - 如何在 R 中绘制乘积函数？

文章推荐： r - 通过子集获取空的 SpatialPolygonsDataFrame？

文章推荐： r - 以编程方式重命名dplyr中的列

typescript - A 部分部分 io-ts
我在使用 io-ts 时遇到一些问题。我发现它确实缺乏文档，我取得的大部分进展都是通过 GitHub issues 取得的。不，我不明白 HKT，所以没有帮助。基本上，我在其他地方创建一个类型，ty
java - 匹配完整文件正则表达式中的 A 部分，但不匹配 B 部分
我必须创建一个正则表达式来搜索整个文件，以找到与 Java XML 解析器的第一部分(但不是第二部分)的匹配项。这将用于防止某些 XXE 攻击。不幸的是，它确实必须是单个正则表达式，并且它确实需要搜索
c# - 部分/部分中的 asp.net mvs 部分？
我有一些简单的 Shared/_Header.cshtml 文件中的内容。 My Shared/_Layout.cshtml 通过调用插入该代码 @Html.Partial("_Header") 目前
java - Selenium 只执行循环的 if != null 部分，不运行循环的 "else if null "部分
我有一个 if-else 语句，其中: 条件 1:ID 匹配并且自动填充某些字段。然后 if 语句只填充其余字段条件 2:ID 不匹配，所有字段均为空白。 ELSE 语句将它们全部填充当我使条件
javascript - 无法在 JSFIDDLE 中使用滚动魔法(第 1 部分，共 2 部分)
我正在开发一个单页滚动网站。我正在尝试实现 ScrollMagic 并固定第一部分，以便网站的其余部分滚动到固定部分的顶部。我尝试创建一个 jsfiddle 来显示问题，但我似乎无法让 jsfiddl
javascript - 既然有

首页

博学

6Ren·AI

商城

r - 将 data.table 拆分为大致相等的部分