gpt4 book ai didi

r - 计算比当前数字低常数的数字

转载 作者:行者123 更新时间:2023-12-03 09:54:24 24 4
gpt4 key购买 nike

想象一下,我有一个数字列表(即data.table/data.frame中的数字列)。

1
5
5
10
11
12

对于列表中的每个数字,要计算有多少个唯一数字,它们的 比该特定数字+5小

大写的解释是,第一个数字= 1,搜索范围是1 + 5 = 6,因此三个数字在范围内,小于或等于: c(1,5,5),然后唯一计数为2。
所有这些都假设我们还有其他条件,即该数字不仅必须小于current_number + 5,而且其在列表中的索引必须> = current_number的索引。

在这种情况下,结果将是:
2
2
2
3
2
1

注意:是否有针对data.frame或data.table中的大型数据集的快速解决方案?我的数据集非常大,有10 + M行。

最佳答案

我能想到的最快速的方法是在基数R中(如果对x进行了排序,则可以使用):

findInterval(x + 5, unique(x)) - cumsum(!duplicated(x)) + 1L
#[1] 2 2 2 3 2 1

编辑:排序没有问题,因为使用 data.table,对整数进行排序很简单:
nr <- 1e7
nn <- nr/2
set.seed(0L)
DT <- data.table(X=sample(nn, nr, TRUE))
#DT <- data.table(X=c(1,5,5,10,11,12))

system.time(
DT[order(X),
COUNT := findInterval(X + 5L, unique(X)) - cumsum(!duplicated(X)) + 1L
]
)
# user system elapsed
# 1.73 0.17 1.53

1000万行时为2秒。

关于r - 计算比当前数字低常数的数字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60228251/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com