gpt4 book ai didi

r - 缩尾数据框

转载 作者:行者123 更新时间:2023-12-02 02:19:33 25 4
gpt4 key购买 nike

我想在这样的数据框中执行缩尾化:

event_date  beta_before     beta_after
2000-05-05 1.2911707054 1.3215648954
1999-03-30 0.5089734305 0.4269575657
2000-05-05 0.5414700258 0.5326762272
2000-02-09 1.5491034852 1.2839988507
1999-03-30 1.9380674599 1.6169735009
1999-03-30 1.3109909155 1.4468207148
2000-05-05 1.2576420753 1.3659492507
1999-03-30 1.4393018341 0.7417777965
2000-05-05 0.2624037804 0.3860641307
2000-05-05 0.5532216441 0.2618245169
2000-02-08 2.6642931822 2.3815576738
2000-02-09 2.3007578964 2.2626960407
2001-08-14 3.2681270302 2.1611010935
2000-02-08 2.2509121123 2.9481325199
2000-09-20 0.6624503316 0.947935581
2006-09-26 0.6431111805 0.8745333151

通过缩尾化,我的意思是找到 beta_before 的最大值和最小值。该值应替换为同一列中的第二高值或第二低值,而不会丢失观察中的其余细节。例如。在本例中,beta_before 中的最大值为 3.2681270302,应替换为 3.2681270302。 min 和 beta_after 变量将遵循相同的过程。因此,每列只有 2 个值会发生变化,即最高值和最低值,其余保持不变。

有什么建议吗?我在 plyr 中尝试了不同的方法,但最终替换了整个观察结果,这是我不想做的。我想创建 2 个新变量,例如 beta_before_winsorized 和 beta_after_winsorized

最佳答案

我认为winsorizing通常会从有序列表的底部找到值x%(通常是10%、15%或20%),并用该值替换它下面的所有值。与顶部相同。在这里,您只需选择顶部和底部值,但缩尾处理通常涉及指定要替换的顶部和底部值的百分比。

关于r - 缩尾数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6229824/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com