gpt4 book ai didi

r - 按组清除 R 数据框中的行

转载 作者:行者123 更新时间:2023-12-01 11:32:21 26 4
gpt4 key购买 nike

这是我的数据框的样子:

df <- read.table(text='
CustomerName Sales TradeDate
John 1000 1/1/2015
John -1000 1/1/2015
John 1000 1/1/2015
John 5000 2/1/2015
John -2000 3/1/2015
John 2000 3/2/2015
John 2000 3/3/2015
John -2000 3/4/2015
John 2000 3/5/2015
John 2000 3/6/2015
John -3000 4/1/2015
John 3000 4/1/2015
John -3000 4/1/2015
John 2000 5/1/2015
John -2000 5/1/2015
John 2000 5/1/2015
Tom 1000 1/1/2015
Tom -1000 1/1/2015
Tom 1000 1/1/2015
Tom 5000 2/1/2015
Tom -2000 3/1/2015
Tom 2000 3/1/2015
Tom -2000 3/1/2015
Tom 2000 3/1/2015
Tom 2000 3/1/2015
Tom -3000 4/1/2015
Tom 3000 4/1/2015
Tom -3000 4/1/2015
', header=T)

我想去掉所有数量相等,符号相反(+,-)的销售额,只显示剩余的净销售额(最好是最早的日期,但无论哪种方式都无所谓)。我想要的数据框看起来像这样

CustomerName    Sales   TradeDate
John 1000 1/1/2015
John 5000 2/1/2015
John 2000 3/3/2015
John 2000 3/6/2015
John -3000 4/1/2015
John 2000 5/1/2015
Tom 1000 1/1/2015
Tom 5000 2/1/2015
Tom 2000 3/1/2015
Tom -3000 4/1/2015

我从 2015 年 3 月 3 日和 2015 年 3 月 6 日选择了两个 2000 年(John 的案例是 3 月份)。但我也同意在 2015 年 3 月 2 日或 2015 年 3 月 5 日给了我两个 2000 的输出。非常感谢您的帮助!

最佳答案

data.table 中,我会这样做:

library(data.table)

# identify how many transactions we need to keep
setDT(df)[,
n_keep := sum(Sales)/transval
,by=.(CustomerName,transval=abs(Sales))]

# tag those transactions
df[sign(Sales)==sign(n_keep),
keep := 1:.N %in% tail(1:.N,abs(n_keep[1]))
,by=.(CustomerName,Sales)]

# keep 'em
df[(keep)][,c("n_keep","keep"):=NULL][]

给出

   CustomerName Sales TradeDate
1: John 1000 1/1/2015
2: John 5000 2/1/2015
3: John 2000 3/5/2015
4: John 2000 3/6/2015
5: John -3000 4/1/2015
6: Tom 1000 1/1/2015
7: Tom 5000 2/1/2015
8: Tom 2000 3/1/2015
9: Tom -3000 4/1/2015

我确信我的代码可以简化,但我认为这些步骤非常透明。

关于r - 按组清除 R 数据框中的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31144484/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com