gpt4 book ai didi

python - 在 groupby-apply 操作期间追加列

转载 作者:太空狗 更新时间:2023-10-30 02:57:48 25 4
gpt4 key购买 nike

上下文

我有几组数据(由 3 列 w/i 数据框定义)并且想对每组执行线性拟合,然后附加估计值(具有拟合的下限和上限)。

问题

执行操作后,我得到一个与最终数据帧和原始数据帧的形状相关的错误

演示问题的示例:

from io import StringIO       # modern python
#from StringIO import StringIO # old python
import numpy
import pandas

def fake_model(group, formula):
# add the results to the group
modeled = group.assign(
fit=numpy.random.normal(size=group.shape[0]),
ci_lower=numpy.random.normal(size=group.shape[0]),
ci_upper=numpy.random.normal(size=group.shape[0])
)

return modeled

raw_csv = StringIO("""\
location,days,era,chemical,conc
MW-A,2415,modern,"Chem1",5.4
MW-A,7536,modern,"Chem1",0.21
MW-A,7741,modern,"Chem1",0.15
MW-A,2415,modern,"Chem2",33.0
MW-A,2446,modern,"Chem2",0.26
MW-A,3402,modern,"Chem2",0.18
MW-A,3626,modern,"Chem2",0.26
MW-A,7536,modern,"Chem2",0.32
MW-A,7741,modern,"Chem2",0.24
""")

data = pandas.read_csv(raw_csv)

modeled = (
data.groupby(by=['location', 'era', 'chemical'])
.apply(fake_model, formula='conc ~ days')
.reset_index(drop=True)
)

这引发了很长的追溯,其症结在于:

[snip]   
C:\Miniconda3\envs\puente\lib\site-packages\pandas\core\internals.py in construction_error(tot_items, block_shape, axes, e)
3880 raise e
3881 raise ValueError("Shape of passed values is {0}, indices imply {1}".format(
-> 3882 passed,implied))
3883
3884

ValueError: Shape of passed values is (8, 9), indices imply (8, 6)

我知道我添加了三列,因此形状为 (8, 9) 与 (8, 6)。

我不明白的是,如果我以最轻微的方式检查数据帧子组,上面的错误不会出现:

def fake_model2(group, formula):
_ = group.name
return fake_model(group, formula)

modeled = (
data.groupby(by=['location', 'era', 'chemical'])
.apply(fake_model2, formula='conc ~ days')
.reset_index(drop=True)
)

print(modeled)

产生:

  location  days     era chemical   conc  ci_lower  ci_upper       fit
0 MW-A 2415 modern Chem1 5.40 -0.466833 -0.599039 -1.143867
1 MW-A 7536 modern Chem1 0.21 -1.790619 -0.532233 -1.356336
2 MW-A 7741 modern Chem1 0.15 1.892256 -0.405768 -0.718673
3 MW-A 2415 modern Chem2 33.00 0.428811 0.259244 -1.259238
4 MW-A 2446 modern Chem2 0.26 -1.616517 -0.955750 -0.727216
5 MW-A 3402 modern Chem2 0.18 -0.300749 0.341106 0.602332
6 MW-A 3626 modern Chem2 0.26 -0.232240 1.845240 1.340124
7 MW-A 7536 modern Chem2 0.32 -0.416087 -0.521973 -1.477748
8 MW-A 7741 modern Chem2 0.24 0.958202 0.634742 0.542667

问题

我的变通办法感觉太老套了,无法在任何实际应用程序中使用。有没有更好的方法来应用我的模型并在更大的数据框中包含每个组的最佳拟合估计?

最佳答案

是的,存在一个非 hacky 解决方法

In [18]: gr = data.groupby(['location', 'era', 'chemical'], group_keys=False)

In [19]: gr.apply(fake_model, formula='')
Out[19]:
location days era chemical conc ci_lower ci_upper fit
0 MW-A 2415 modern Chem1 5.40 -0.105610 -0.056310 1.344210
1 MW-A 7536 modern Chem1 0.21 0.574092 1.305544 0.411960
2 MW-A 7741 modern Chem1 0.15 -0.073439 0.140920 -0.679837
3 MW-A 2415 modern Chem2 33.00 1.959547 0.382794 0.544158
4 MW-A 2446 modern Chem2 0.26 0.484376 0.400111 -0.450741
5 MW-A 3402 modern Chem2 0.18 -0.422490 0.323525 0.520716
6 MW-A 3626 modern Chem2 0.26 -0.093855 -1.487398 0.222687
7 MW-A 7536 modern Chem2 0.32 0.124983 -0.484532 -1.162127
8 MW-A 7741 modern Chem2 0.24 -1.622693 0.949825 -1.049279

这实际上也为您节省了 .reset_index :)

group_keys 是错误背后的罪魁祸首。pandas 中的 maybe 错误来自每个组的常规 concat。使用 group_keys=True 就是这样

[('MW-A', 'modern', 'Chem1'), ('MW-A', 'modern', 'Chem2')]

Pandas 没想到。这闻起来像 pandas 中的错误,但还没有挖掘更多来确认。

关于python - 在 groupby-apply 操作期间追加列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35924126/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com