gpt4 book ai didi

python - 如何在 Python Pandas 中使用 groupby().apply() 而不是在整个数据集上运行循环?

转载 作者:太空宇宙 更新时间:2023-11-03 21:00:59 25 4
gpt4 key购买 nike

我有一个很大的数据集,如下所示:

Year         Company              Sales          Dummy          

1993 A 100 1
1994 A 50 1
1995 A 50 1
1996 A NaN 0
1997 A NaN 0
1998 A NaN 0

1993 B 100 1
1994 B 50 1
1995 B 50 1
1996 B NaN 0
1997 B NaN 0
1998 B 100 1

预期输出如下:

Year         Company              Sales          Dummy       

1993 A 100 1
1994 A 50 1
1995 A 50 1
1996 A NaN 0
1997 A NaN 0
1998 A NaN 0

1993 B 100 1
1994 B 50 1
1995 B 50 1
1996 B NaN 1
1997 B NaN 1
1998 B 100 1

1993 C 100 1
1994 C 50 1
1995 C 50 1
1996 C NaN 1
1997 C 32 1
1998 C 100 1

我想在 B 和 C 公司等一些公司的虚拟列中填写 1,因为 B 公司在样本期之间有缺失值,但 B 和 C 公司在样本期结束时再次有可用的销售值。

我使用了这段代码:

*** Create Dummy variables        
df['Dummy']=np.where(df.Sales.notnull(),1,0)

*** Def a function
def Newdummygenerator(x):
for i in range(len(x)):
if x.iloc[i,x.columns.get_loc('Dummy')]==1:
x.iloc[i,x.columns.get_loc('Dummy')]=1
elif x.iloc[i,x.columns.get_loc('Dummy')]==0 and\ sum(x.Dummy[i:])>=1 and sum(x.Dummy[0:i])>=1:
x.iloc[i,x.columns.get_loc('Dummy')]=1
else:
x.iloc[i,x.columns.get_loc('Dummy')]=0

*** 在公司上运行 for 循环 对于 df.Company.unique() 中的 i: Newdummygenerator(df[df.Company==i])

以上代码工作正常并满足我的需要。但是,我的数据集非常大。上面的代码需要一段时间才能运行。我尝试使用:

df.groupby('Company',as_index=False).apply(Newdummygenerator)

df.groupby('Company',as_index=False).apply(lambda x: Newdummygenerator(x))

以上代码不起作用。

还有

df.groupby('Company',as_index=False).apply(lambda x: Newdummygenerator(x))

Output: __

问题:

  1. 上面代码的输出是__;我想知道为什么会这样。根据我的理解 apply() 函数将每个组作为一个子数据集,并且我的函数可以对每个子数据集执行一些操作。难道我有什么误会吗?

  2. 如果我想使用定义的函数,如何更改定义的函数以使用 apply() 函数?

  3. 有更有效的方法吗?

快速分类:我处理的问题比我描述的情况复杂得多。我的观点是为什么我不能在 groupby().apply() 函数中使用上面定义的函数?太感谢了!

最佳答案

我知道如何解决这个问题。

我定义的函数应该返回一个新的数据帧,因为我按组聚合数据,在这种情况下需要一个新的数据帧。

如果我不输入 return,pandas 只会进行聚合,因此你的输出将为“__”

*** Create Dummy variables        
df['Dummy']=np.where(df.Sales.notnull(),1,0)

*** Def a function
def Newdummygenerator(x):
for i in range(len(x)):
if x.iloc[i,x.columns.get_loc('Dummy')]==1:
x.iloc[i,x.columns.get_loc('Dummy')]=1
elif x.iloc[i,x.columns.get_loc('Dummy')]==0 and\ sum(x.Dummy[i:])>=1 and sum(x.Dummy[0:i])>=1:
x.iloc[i,x.columns.get_loc('Dummy')]=1
else:
x.iloc[i,x.columns.get_loc('Dummy')]=0
return x

上面定义的函数可以插入到apply()函数中

df.groupby().apply(Newdummygenerator)

关于python - 如何在 Python Pandas 中使用 groupby().apply() 而不是在整个数据集上运行循环?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55705704/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com