gpt4 book ai didi

python - 删除异常值(+/- 3 std)并在 Python/pandas 中替换为 np.nan

转载 作者:行者123 更新时间:2023-11-28 21:51:40 28 4
gpt4 key购买 nike

我见过几个接近解决我的问题的解决方案

link1 link2

但到目前为止,它们并没有帮助我取得成功。

我相信以下解决方案是我所需要的,但继续出现错误(而且我没有评论/问题的声誉点):link

(我收到以下错误,但我不明白在执行以下命令时 .copy() 或添加“inplace=True”的位置 df2=df.groupby('install_site').transform(replace):

设置复制警告:试图在 DataFrame 的切片副本上设置一个值。尝试使用 .loc[row_indexer,col_indexer] = value 代替

请参阅文档中的注意事项:link

所以,我试图想出我自己的版本,但我一直卡住了。开始吧。

我有一个按时间索引的数据框,其中包含站点列(许多不同站点的字符串值)和浮点值。

time_index            site       val

我想遍历“val”列,按站点分组,并用 NaN(对于每个组)替换任何异常值(那些与平均值 +/- 3 个标准差的值)。

当我使用以下函数时,我无法使用我的 True/Falses 向量索引数据框:

def replace_outliers_with_nan(df, stdvs):
dfnew=pd.DataFrame()
for i, col in enumerate(df.sites.unique()):
dftmp = pd.DataFrame(df[df.sites==col])
idx = [np.abs(dftmp-dftmp.mean())<=(stdvs*dftmp.std())] #boolean vector of T/F's
dftmp[idx==False]=np.nan #this is where the problem lies, I believe
dfnew[col] = dftmp
return dfnew

此外,我担心上述函数在 700 万+行上会花费很长时间,这就是我希望使用 groupby 函数选项的原因。

最佳答案

如果我没听错,就没有必要遍历列。该解将所有偏离三组标准差以上的值替换为NaN。

def replace(group, stds):
group[np.abs(group - group.mean()) > stds * group.std()] = np.nan
return group

# df is your DataFrame
df.loc[:, df.columns != group_column] = df.groupby(group_column).transform(lambda g: replace(g, 3))

关于python - 删除异常值(+/- 3 std)并在 Python/pandas 中替换为 np.nan,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29740216/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com