- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
分割下表最有效(时间和空间)的方法是什么
dt = data.table(x=c(1,3,5,4,6,2), y=c(4,7,1,1,2,6))
> dt
x y
1: 1 4
2: 3 7
3: 5 1
4: 4 1
5: 6 2
6: 2 6
分成两个单独的表 dt1 和 dt2,这样 dt1 包含所有 (x,y) 行,当且仅当 (y,x) 也是 dt 中的一行,而 dt2 包含其他行:
> dt1
x y
1: 1 4
2: 4 1
3: 6 2
4: 2 6
> dt2
x y
1: 3 7
2: 5 1
效率至关重要,全表近2亿行
最佳答案
另一个选项是对其自身执行向后连接
indx <- sort.int(dt[unique(dt), on = c(x = "y", y = "x"), which = TRUE, nomatch = 0L])
dt[indx]
# x y
# 1: 1 4
# 2: 4 1
# 3: 6 2
# 4: 2 6
dt[-indx]
# x y
# 1: 3 7
# 2: 5 1
基准 - 如果您不关心顺序,我的解决方案对于 200MM 行似乎更快(两种解决方案结果都是无序的)
set.seed(123)
bigdt <- data.table(x = sample(1e3, 2e8, replace = TRUE),
y = sample(1e3, 2e8, replace = TRUE))
system.time(i1 <- bigdt[, .I[.N>1] ,.(X=pmax(x,y), Y=pmin(y,x))]$V1)
# user system elapsed
# 21.81 0.82 22.97
system.time(indx <- bigdt[unique(bigdt), on = c(x = "y", y = "x"), which = TRUE, nomatch = 0L])
# user system elapsed
# 17.74 0.90 18.80
# Checking if both unsorted and if identical when sorted
is.unsorted(i1)
# [1] TRUE
is.unsorted(indx)
# [1] TRUE
identical(sort.int(i1), sort.int(indx))
# [1] TRUE
这是一个非简并的情况(其中 indx != bigdt[, .I]
):
set.seed(123)
n = 1e7
nv = 1e4
DT <- data.table(x = sample(nv, n, replace = TRUE), y = sample(nv, n, replace = TRUE))
library(microbenchmark)
microbenchmark(
akrun = {
idx = DT[, .I[.N > 1], by=.(pmax(x,y), pmin(x,y))]$V1
list(DT[idx], DT[-idx])
},
akrun2 = {
idx = DT[,{
x1 <- paste(pmin(x,y), pmax(x,y))
duplicated(x1)|duplicated(x1, fromLast=TRUE)
}]
list(DT[idx], DT[!idx])
},
davida = {
idx = DT[unique(DT), on = c(x = "y", y = "x"), which = TRUE, nomatch = 0L]
list(DT[idx], DT[-idx])
},
akrun3 = {
n = DT[, N := .N, by = .(pmax(x,y), pmin(x,y))]$N
DT[, N := NULL]
split(DT, n > 1L)
}, times = 1)
Unit: seconds
expr min lq mean median uq max neval
akrun 7.056609 7.056609 7.056609 7.056609 7.056609 7.056609 1
akrun2 22.810844 22.810844 22.810844 22.810844 22.810844 22.810844 1
davida 2.738918 2.738918 2.738918 2.738918 2.738918 2.738918 1
akrun3 5.662700 5.662700 5.662700 5.662700 5.662700 5.662700 1
关于r - 如何根据涉及2列的规则将大数据表有效地分成两部分?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36444269/
简单问题:如何指定分割窗口中的字符数? C-x-3 将我的窗口均匀分割为两个窗口,但随后的分割会将其中一个窗口分成两半。我想要 3 个大小相同的 window 。文档说我应该能够指定左缓冲区的字符数作
我需要一个程序,可以接受用户输入的数据数量和长度(英尺和英寸或仅英寸),并将这些项目分为 40 组。 我最初尝试在 Excel 中完成此任务,但我不确定是否可以完成。 var cutList = [
这个问题已经有答案了: Why does the division of two integers return 0.0 in Java? [duplicate] (6 个回答) 已关闭 5 年前。
我想知道在使用布局 (MigLayout) 时我可以分成 2 行而不是两列吗? panel.add(fname,"split 2"); panel.add(Fname,"wrap, pushx, gr
我几乎有一个像下面这样的代码,我正在尝试添加 每 6 个结果之后。 echo ""; $query="SELECT * WHERE id='$id' ORDER BY date ASC"; $resu
我在 android 2.2 中创建了一个选项卡 fragment ,带有 android 兼容性支持库 ,现在在我的应用程序中我几乎没有 Activity ,其中一些是扩展 Activity 类和其
这是我的 question 的扩展. 为了让它更简单让我们假设我有一个 pandas 数据框,如下所示。 df = pd.DataFrame([[1.1, 1.1, 2.5, 2.6, 2.5, 3.
我正在开发 Windows Phone 8 应用程序,其中我有一个 Stackpanel,我想在其中放置 7 个矩形。我希望这些矩形具有相同的高度,无论屏幕尺寸如何。我尝试设置 Height="*"
我一直相信java使用UTF-16在内部对其字符进行编码。它使用 u+xxxx 的事实证实了这一点。表示字符代码的格式以及它使用 16 位存储 char 的事实。 . 但有时UTF-16需要超过 2
我正在开发 Windows Phone 8 应用程序,其中我有一个 Stackpanel,我想在其中放置 7 个矩形。我希望这些矩形具有相同的高度,无论屏幕尺寸如何。我尝试设置 Height="*"
为了重新编码 malloc 函数,我执行了 sbrk(stack) 其中: void *malloc(size_t size) { stack = 0; while (stack start
寻找一个 css 或 jquery 解决方案来将这些动态加载的表分解为每行最多 6 个,创建表的脚本将它们全部内联,有时一行中显示多达 32 个 td.tables。我怎样才能在最多只有 6 个内联显
我可以请求帮助将 UTF-16 数据流拆分成 block 吗? 不幸的是,很难找到字母边界。 任何帮助表示赞赏,已经花了几个晚上在这上面,很想了解这个问题。 运行良好的 Java 版本(是否有任何自动
我正在使用 Contact Forms 7在 wordpress 安装中创建联系表单。创建的表单位于 here Contact Form 扩展是免费、灵活且易于使用的。但问题是,无论一个表单包含多少个
我想将一个字符串拆分为一系列子字符串以适合我的数据库,假设我的数据库 varchar 大小为 50。如果将原始字符串切割为最多 50 个字符,那么我需要在该字符串中包含尾随 (逗号)。例如, 我的原始
我必须用 css 做一个足球队盾牌,我的想法是用球队的颜色做一个圆圈,我已经用 1 种或 2 种颜色为盾牌做了圆圈,但我在使用 3 种颜色的盾牌时遇到了麻烦 我将其用于 2 种颜色的防护罩 .equi
如果我有 1000 美元(可变),我想把这笔钱分给 20(可变)人,但不是平均地给每个人,我想给第一个人更多,然后第二人称等 所以第 20 个人得到的最少,第 5 个人得到的第 5 多。 我将如何实现
我需要一种算法,将数字 n 分成 k 部分,并增加限制,即每个分区元素必须在 a 0 and k > 0: for x in range(a, b+1): fo
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Swing: How do I set a component height to the containe
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 9
我是一名优秀的程序员,十分优秀!