gpt4 book ai didi

python - 异常值数据分析

转载 作者:行者123 更新时间:2023-11-30 22:00:18 24 4
gpt4 key购买 nike

我的代码应该返回大约 65 列数据的统计分析(调查中的问题)。下面给出了示例数据以及当前代码。目前,输出仅显示不包含字符串的列(对于其他列,它们返回为 NaN,甚至不会显示在 Excel 中)。

我认为该问题是由于某些数据点标记为“无数据”而某些数据点标记为“异常值”所致

我想学习一种方法来忽略异常值/无数据点并显示其余数据的统计信息,例如平均值或中位数。我还很想了解如何合并条件函数来显示结果,例如“响应计数 > 4.25”,以便我可以扩展分析。

Q1  Q2  Q3  Q4  Q5  Q6
4.758064516 4.709677419 4.629032258 Outlier 4.708994709 4.209677419
4.613821138 No Data 4.259259259 4.585774059 4.255927476 Outlier
4.136170213 4.309322034 4.272727273 4.297169811 No Data 4.29468599
4.481558803 4.581476323 4.359495445 4.558252427 4.767926491 3.829030007
4.468085106 4.446808511 4.425531915 4.446808511 4.423404255 4.14893617

所需输出示例(与示例数据不相关): enter image description here

代码:

import pandas as pd 
from pandas import ExcelWriter

# Pull in Data
path = r"C:\Users\xx.xx\desktop\Python\PyTest\Pyxx.xlsx"
sheet = 'Adjusted Data'
data = pd.read_excel(path,sheet_name=sheet)

#Data Analysis
analysis = pd.DataFrame(data.agg(['count','min','mean', 'median', 'std']), columns=data.columns).transpose()
print(analysis)

g1 = data.groupby('INDUSTRY').median()
print(g1)
g2 = data.groupby('New Zone').median()
print(g2)

#Excel
path2 = r"C:\Users\xx.xx\desktop\Python\PyTest\Pyxx2.xlsx"
writer = ExcelWriter(path2)
g1.to_excel(writer,'x')
g2.to_excel(writer,'y')
analysis.to_excel(writer,'a')
data.to_excel(writer,'Adjusted Data')
writer.save()

编辑计算对 Q1 的响应中有多少个 > X(在本例中,K1 = COUNTIF(K1:K999,TRUE))

enter image description here

我希望将 K1 和 M1 中找到的值(以及所有问题的依此类推)添加到分析表中,如下所示: enter image description here enter image description here

最佳答案

这正是由于字符串而发生的。它们不能用双数相加。这是一个未定义的操作,因此是 Nan。

尝试清理数据。

选项有:

  • 如果这对您的统计有意义,则删除不包含数据或异常值的行。 (您甚至可以一次执行一列,一次计算一列的统计信息)。
  • 用该列的平均值替换这些值(这是统计中的标准程序之一)。
  • 考虑一种特定领域的方法来处理此类数据。

无论如何,我会尝试从数据中删除字符串。

如果您无法做到这一点,则可能意味着该数据不属于其他数据,因为它来自不同的分布。

关于python - 异常值数据分析,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54336649/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com