gpt4 book ai didi

python - 在 Pandas/Pyspark 中测量数据完整性并按日期分组

转载 作者:行者123 更新时间:2023-12-04 01:01:47 25 4
gpt4 key购买 nike

我正在从事一个数据质量项目,我需要按日期衡量我的数据框的数据完整性。我有类似的东西:

Date         A       B
2021-06-18 x y
2021-06-18 NaN y
2021-06-20 x y
2021-06-20 x y
2021-06-20 x y

我可以使用 pandas 测量整个数据框的完整性:

print (test_df.isna().sum().sum() / test_df.size * 100)

但现在我想要的是这样的东西:

Date         NaPercent
2021-06-18 25%
2021-06-20 0%

我尝试使用:

test_df.groupby(['date']).isna().sum().sum() / test_df.size * 100

test_df.isna().groupby(['date']).sum().sum() / test_df.size * 100

但还是不行。我一直在寻找但没有找到解决方案。我该怎么做?

最佳答案

这应该可以完成工作:

grouped = test_df.groupby('Date')
sizes = grouped.size().values * len(test_df.columns)

num_of_nans = sizes - grouped.count().sum(axis=1)
out = num_of_nans / sizes
out.to_frame().rename(columns={0: 'NaPercent'})

输出:

            NaPercent
Date
2021-06-18 0.25
2021-06-20 0.00

关于python - 在 Pandas/Pyspark 中测量数据完整性并按日期分组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68101806/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com