gpt4 book ai didi

python-3.x - 数据分析 - 如何计算空值、NaN 和空字符串值?

转载 作者:行者123 更新时间:2023-12-03 09:44:21 28 4
gpt4 key购买 nike

我是 pyspark 的新手,我有这个示例数据集:

   Ticker_Modelo Ticker  Type   Period  Product  Geography  Source  Unit  Test
0 Model1_Index Model1 Index NWE Forties Hydrocraking Daily Refinery Margins NWE Bloomberg None 3
1 Model2_Index Model2 Index NWE Bonny Light Hydrocraking Daily Refinery Margins NWE Bloomberg None 5
2 Model3_Index Model3 Index USGC LLS FCC Daily Refinery Margins USGC Bloomberg None 12
3 Model4_Index Model4 Index USGC Maya Coking Daily Refinery Margins USGC Bloomberg None 67
4 Model6_Index Model6 Index USMC WTI FCC Daily Refinery Margins USMC Bloomberg None 45
5 Model5_Index Model5 Index USMC WCSS Coking Daily Refinery Margins USMC Bloomberg None 22
6 Model7_Index Model7 Index USEC Hibernia FCC Daily Refinery Margins USEC Bloomberg None
7 Model8_Index Model8 Index Singapore Dubai Hydrocracking Daily Refinery Margins Singapore Bloomberg None Null

我需要进行数据分析并将其存储在数据库中。

我尝试过使用 Optimus ( https://github.com/ironmussa/Optimus/ ) 和 panda_profiler ( https://pandas-profiling.github.io/pandas-profiling/docs/ ),但它们进行了分析并为您提供了 HTML,并且有一些我需要但它无法计算的值。

我需要计算每一列中有多少个 null/NaN/空字符串,并用它创建一个新表。

我正在使用 pandas 和 pyspark。

我找到了一个我认为有帮助的答案,Python / Pyspark - Count NULL, empty and NaN ,但是当我尝试将它应用于一列时尝试

data_df.filter((data_df["Ticker_Modelo"] == "") | data_df["Ticker_Modelo"].isNull() | isnan(data_df["Ticker_Modelo"])).count()

它给我一个错误:AttributeError: 'Series' object has no attribute 'isNull'

然后我不确定如何将它应用到所有列并将其转置以获得如下内容:

               Count_nulls
Ticker_Modelo 0
Ticker 0
Type 0
Period 0
Product 0
Geography 0
Source 0
Unit 0
Test 2

最佳答案

您可以执行以下操作:

首先将所有 Null/None 值更改为 Panda NaN 的值

df.replace(['None','Null'],np.nan)

df.isnull().sum(axis=0).to_frame().rename(columns={0 : 'Count_Nulls'})

关于python-3.x - 数据分析 - 如何计算空值、NaN 和空字符串值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58591201/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com