gpt4 book ai didi

python - 如何将 Pandas 数据帧系列中的连续重复值更改为 nan 或 0?

转载 作者:行者123 更新时间:2023-11-28 21:38:20 25 4
gpt4 key购买 nike

我有一个根据测量数字创建的 pandas 数据框。当测量出现问题时,将重复最后一个值。我想做两件事:
1. 将所有重复值更改为 nan 或 0。
2. 保留第一个重复值并将所有其他值更改为 nan 或 0。

我找到了使用“shift”的解决方案,但它们删除了重复值。我不想删除重复值。我的数据框如下所示:

df = pd.DataFrame(np.random.randn(15, 3))
df.iloc[4:8,0]=40
df.iloc[12:15,1]=22
df.iloc[10:12,2]=0.23

给出这样的数据框:

            0          1         2
0 1.239916 1.109434 0.305490
1 0.248682 1.472628 0.630074
2 -0.028584 -1.116208 0.074299
3 -0.784692 -0.774261 -1.117499
4 40.000000 0.283084 -1.495734
5 40.000000 -0.074763 -0.840403
6 40.000000 0.709794 -1.000048
7 40.000000 0.920943 0.681230
8 -0.701831 0.547689 -0.128996
9 -0.455691 0.610016 0.420240
10 -0.856768 -1.039719 0.230000
11 1.187208 0.964340 0.230000
12 0.116258 22.000000 1.119744
13 -0.501180 22.000000 0.558941
14 0.551586 22.000000 -0.993749

我想做的是编写一些代码来过滤数据并给我一个像这样的数据框:

           0         1         2
0 1.239916 1.109434 0.305490
1 0.248682 1.472628 0.630074
2 -0.028584 -1.116208 0.074299
3 -0.784692 -0.774261 -1.117499
4 NaN 0.283084 -1.495734
5 NaN -0.074763 -0.840403
6 NaN 0.709794 -1.000048
7 NaN 0.920943 0.681230
8 -0.701831 0.547689 -0.128996
9 -0.455691 0.610016 0.420240
10 -0.856768 -1.039719 NaN
11 1.187208 0.964340 NaN
12 0.116258 NaN 1.119744
13 -0.501180 NaN 0.558941
14 0.551586 NaN -0.993749

或者更好的做法是保留第一个值并将其余值更改为 NaN。像这样:

            0          1         2
0 1.239916 1.109434 0.305490
1 0.248682 1.472628 0.630074
2 -0.028584 -1.116208 0.074299
3 -0.784692 -0.774261 -1.117499
4 40.000000 0.283084 -1.495734
5 NaN -0.074763 -0.840403
6 NaN 0.709794 -1.000048
7 NaN 0.920943 0.681230
8 -0.701831 0.547689 -0.128996
9 -0.455691 0.610016 0.420240
10 -0.856768 -1.039719 0.230000
11 1.187208 0.964340 NaN
12 0.116258 22.000000 1.119744
13 -0.501180 NaN 0.558941
14 0.551586 NaN -0.993749

最佳答案

使用移位和掩码:

df.shift(1) == df 将下一行与当前行进行连续重复比较。

df.mask(df.shift(1) == df)

# outputs
0 1 2
0 0.365329 0.153527 0.143244
1 0.688364 0.495755 1.065965
2 0.354180 -0.023518 3.338483
3 -0.106851 0.296802 -0.594785
4 40.000000 0.149378 1.507316
5 NaN -1.312952 0.225137
6 NaN -0.242527 -1.731890
7 NaN 0.798908 0.654434
8 2.226980 -1.117809 -1.172430
9 -1.228234 -3.129854 -1.101965
10 0.393293 1.682098 0.230000
11 -0.029907 -0.502333 NaN
12 0.107994 22.000000 0.354902
13 -0.478481 NaN 0.531017
14 -1.517769 NaN 1.552974

如果要删除所有连续的重复项,请测试前一行是否也与当前行相同

df.mask((df.shift(1) == df) | (df.shift(-1) == df))

关于python - 如何将 Pandas 数据帧系列中的连续重复值更改为 nan 或 0?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48428173/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com