R:在 j 子句中的 cut 函数中引用 data.table 字段-6ren

R:在 j 子句中的 cut 函数中引用 data.table 字段

转载作者：行者123 更新时间：2023-12-03 01:40:55

25

4

基本上，我有以下 2 个 data.table:

dt - 包含值字段 (y) 和分组字段 (x)
bk - 包含 4 个“break”字段 (bn)，描述每个组 x 的区间 [1, inf) 的桶结构 在 dt 中找到。每个 bn 代表该存储桶的最小值(含)，并延伸到下一个存储桶(例如:x=1 的 4 个存储桶为 [1,3)，[ 3,5), [5, 10), [10, inf))。注意桶结构不一定是唯一的。

> #4 groups (x), each with a bucket structure defined breaks (bn).
> bk<- data.table(x=c(1:4), b1=c(1,1,1,1), b2=c(3,3,4,4), b3=c(5,5,7,8), b4=c(10,10,10,10), key="x")
> bk
   x b1 b2 b3 b4
1: 1  1  3  5 10
2: 2  1  3  5 10
3: 3  1  4  7 10
4: 4  1  4  8 10
> dt<- data.table(x=rep(c(1:4),5), y=rep(c(1:10),2), key="x")
> dt
    x  y
 1: 1  1
 2: 1  5
 3: 1  9
 4: 1  3
 5: 1  7
 6: 2  2
 7: 2  6
 8: 2 10
 9: 2  4
10: 2  8
11: 3  3
12: 3  7
13: 3  1
14: 3  5
15: 3  9
16: 4  4
17: 4  8
18: 4  2
19: 4  6
20: 4 10

我的目标是在 dt 中添加一个字段 b 来根据存储桶结构指示记录属于哪个存储桶(1、2、3 或 4)对应于组x。请参阅下面所需的输出:

    x  y  b
 1: 1  1  1  #Buckets for x=1
 2: 1  5  3
 3: 1  9  3
 4: 1  3  2
 5: 1  7  3
 6: 2  2  1  #Buckets for x=2 (same as 1)
 7: 2  6  3
 8: 2 10  4
 9: 2  4  2
10: 2  8  3
11: 3  3  1  #Buckets for x=3
12: 3  7  3
13: 3  1  1
14: 3  5  2
15: 3  9  3
16: 4  4  2  #Buckets for x=4
17: 4  8  3
18: 4  2  1
19: 4  6  2
20: 4 10  4

我最初的想法是连接两个 data.table 并使用 cut 函数返回每条记录的存储桶编号，但是我遇到了问题打破参数。第一次尝试如下所示:

> bkt[dt, .(x, y, b=cut(y, breaks=c(b1, b2, b3, b4, "inf"), include.lowest=TRUE, labels=c(1:4)))]
Error in cut.default(y, breaks = c(b1, b2, b3, b4, "inf"), include.lowest = TRUE,  : 
  'breaks' are not unique

如果我创建一个变量 a 来保存存储桶结构(例如，对于 x=1)，则以下内容将按我的预期工作:

> a<- c(1, 3, 5, 10, "inf")
> bkt[dt, .(x, y, b=cut(y, breaks=a, include.lowest=TRUE, labels=c(1:4)))]
    x  y b
 1: 1  1 1
 2: 1  5 2
 3: 1  9 3
 4: 1  3 1
 5: 1  7 3
 6: 2  2 1
 7: 2  6 3
 8: 2 10 3
 9: 2  4 2
10: 2  8 3
11: 3  3 1
12: 3  7 3
13: 3  1 1
14: 3  5 2
15: 3  9 3
16: 4  4 2
17: 4  8 3
18: 4  2 1
19: 4  6 3
20: 4 10 3

对于我的应用程序来说，这仍然不是一个实用的解决方案，但我希望有人可以帮助我了解如何正确地将存储桶结构信息传递给 breaks 参数以获得类似的结果。我尝试了 c、list、unlist、as.numeric 函数的各种组合来传递正确的 break 论点但没有运气。任何帮助/见解将不胜感激。谢谢!

全面披露，我是 R 新手，这是我的第一篇文章，请保持温柔。

最佳答案

稍微改变一下连接语法:

dt[bk, v := 
  cut(y, breaks = c(b1, b2, b3, b4, Inf), include.lowest = TRUE, labels = 1:4)
, by=.EACHI]

    x  y v
 1: 1  1 1
 2: 1  5 2
 3: 1  9 3
 4: 1  3 1
 5: 1  7 3
 6: 2  2 1
 7: 2  6 3
 8: 2 10 3
 9: 2  4 2
10: 2  8 3
11: 3  3 1
12: 3  7 2
13: 3  1 1
14: 3  5 2
15: 3  9 3
16: 4  4 1
17: 4  8 2
18: 4  2 1
19: 4  6 2
20: 4 10 3

这些结果与OP中所需的输出不同，但我认为错误在于对cut参数的解释(我觉得这很令人困惑)。

这种方法相当不优雅，因为每个 b1, ..., b4 都必须写入；并且随着断点的增加，它的扩展性也不会很好。我同意 @NathanWerth reshape bk 表的建议。他的方法还给出了 OP 期望的结果，而无需摆弄 cut 参数。

<小时/>

旁注:正确的符号是 Inf 而不是 "inf"。

关于R:在 j 子句中的 cut 函数中引用 data.table 字段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45357928/

25

4

0

文章推荐： excel - 删除Excel中的每四行

文章推荐： api - 使用Tensorflow Dataset API的音频背景噪声

文章推荐： elasticsearch - 带有@(符号)的Elastic Search查询带来与没有

详解C语言sscanf()函数、vsscanf()函数、vscanf()函数
C语言sscanf()函数：从字符串中读取指定格式的数据头文件： ?
php - 如何解释at()函数； substr()函数;伪代码中的exist()函数
最近，我有一个关于工作预评估的问题，即使查询了每个功能的工作原理，我也不知道如何解决。这是一个伪代码。下面是一个名为foo()的函数，该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数，
VBS教程：函数-CStr 函数
CStr 函数返回表达式，该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CSng 函数
CSng 函数返回表达式，该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-CreateObject 函数
CreateObject 函数创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
VBS教程：函数-Cos 函数
Cos 函数返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
VBS教程：函数-CLng 函数
CLng 函数返回表达式，此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。说明通常，您可以使
VBS教程：函数-CInt 函数
CInt 函数返回表达式，此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-Chr 函数
Chr 函数返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。说明从 0 到 31 的数字表示标准的不可打印的
VBS教程：函数-CDbl 函数
CDbl 函数返回表达式，此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。说明通常，您可
VBS教程：函数-CDate 函数
CDate 函数返回表达式，此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。说明 IsDate 函数用于判断 d
VBS教程：函数-CCur 函数
CCur 函数返回表达式，此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。说明通常，
VBS教程：函数-CByte 函数
CByte 函数返回表达式，此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CBool 函数
CBool 函数返回表达式，此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。说明如果 ex
VBS教程：函数-Atn 函数
Atn 函数返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
VBS教程：函数-Asc 函数
Asc 函数返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符，则将发生运行时错误。
VBS教程：函数-Array 函数
Array 函数返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表（用逗号分隔）。如果没有指定此参数，则
VBS教程：函数-Abs 函数
Abs 函数返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null，则返回 Null；如果是未初始化变量，则返回 0。
VBS教程：函数-FormatPercent 函数
FormatPercent 函数返回表达式，此表达式已被格式化为尾随有 % 符号的百分比（乘以 100 ）。 FormatPercent(expression[,NumDigitsAfterD
VBS教程：函数-FormatNumber 函数
FormatNumber 函数返回表达式，此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc

首页

博学

6Ren·AI

商城

R:在 j 子句中的 cut 函数中引用 data.table 字段