gpt4 book ai didi

python - Numpy Pandas 删除异常值

转载 作者:行者123 更新时间:2023-12-01 09:33:59 24 4
gpt4 key购买 nike

我正在尝试创建一个函数,该函数将解析一个值数组,然后更新该数组,而不包含因超出四分位数范围而被确定为异常值的值。虽然我觉得我现有的条件将测试并输出正确的答案,但我不确定应该如何将一列值传递到数据框中,以删除与异常情况匹配的行。目前我的数据返回时出现类型错误。

错误: TypeError:元组索引必须是整数,而不是 str

功能:

def reject_outliers_iqr(data):
q1, q3 = np.percentile(data, [25, 75])
iqr = q3 - q1

lower_bound = q1 - (iqr * 1.5)
upper_bound = q3 + (iqr * 1.5)
return np.where((data > upper_bound) > (data < lower_bound))

数据框:

rawData = pd.read_csv(parent_folder + "/" + csv_file)
print(rawData.head())

date day_of_week leads clicks sal
0 1/1/17 Sunday 0 527 0
1 1/2/17 Monday 0 1013 0
2 1/3/17 Tuesday 0 1428 0
3 1/4/17 Wednesday 0 1461 0
4 1/5/17 Thursday 0 1429 0

最佳答案

在我看来,你的函数的最后一行至少包含三个错误,并且可能应该是

return np.where((data > lower_bound) & (data < upper_bound))
  1. 数据应高于下限,低于上限。

  2. 逻辑连接是&,而不是>

纠正后,我运行得很好,如(使用您的数据):

>>> df.iloc[reject_outliers_iqr(df.clicks)]
date day_of_week leads clicks sal
0 1/1/17 Sunday 0 527 0
1 1/2/17 Monday 0 1013 0
2 1/3/17 Tuesday 0 1428 0
3 1/4/17 Wednesday 0 1461 0
4 1/5/17 Thursday 0 1429

关于python - Numpy Pandas 删除异常值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49699048/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com