gpt4 book ai didi

python - 如何在 Pandas 中创建 lazy_evaluated 数据框列

转载 作者:太空狗 更新时间:2023-10-29 18:01:37 25 4
gpt4 key购买 nike

很多时候,我有一个大数据框df来保存基础数据,并且需要创建更多的列来保存由基础数据列计算的派生数据。

我可以在 Pandas 中这样做:

df['derivative_col1'] = df['basic_col1'] + df['basic_col2']
df['derivative_col2'] = df['basic_col1'] * df['basic_col2']
....
df['derivative_coln'] = func(list_of_basic_cols)

等Pandas 会一次性计算并分配所有派生列的内存。

我现在想要的是有一个惰性求值机制,将导数列的计算和内存分配推迟到实际需要的时刻。将 lazy_eval_columns 定义为:

df['derivative_col1'] = pandas.lazy_eval(df['basic_col1'] + df['basic_col2'])
df['derivative_col2'] = pandas.lazy_eval(df['basic_col1'] * df['basic_col2'])

这将像 Python 的“yield”生成器一样节省时间/内存,因为如果我发出 df['derivative_col2'] 命令只会触发特定的计算和内存分配。

那么如何在 Pandas 中执行 lazy_eval() 呢?欢迎任何提示/想法/引用。

最佳答案

从 0.13 开始(很快发布),你可以做这样的事情。这是使用生成器来评估动态公式。通过 eval 进行的内联赋值将是 0.13 中的附加功能,请参阅 here

In [19]: df = DataFrame(randn(5, 2), columns=['a', 'b'])

In [20]: df
Out[20]:
a b
0 -1.949107 -0.763762
1 -0.382173 -0.970349
2 0.202116 0.094344
3 -1.225579 -0.447545
4 1.739508 -0.400829

In [21]: formulas = [ ('c','a+b'), ('d', 'a*c')]

使用 eval 创建一个计算公式的生成器;分配结果,然后产生结果。

In [22]: def lazy(x, formulas):
....: for col, f in formulas:
....: x[col] = x.eval(f)
....: yield x
....:

在行动中

In [23]: gen = lazy(df,formulas)

In [24]: gen.next()
Out[24]:
a b c
0 -1.949107 -0.763762 -2.712869
1 -0.382173 -0.970349 -1.352522
2 0.202116 0.094344 0.296459
3 -1.225579 -0.447545 -1.673123
4 1.739508 -0.400829 1.338679

In [25]: gen.next()
Out[25]:
a b c d
0 -1.949107 -0.763762 -2.712869 5.287670
1 -0.382173 -0.970349 -1.352522 0.516897
2 0.202116 0.094344 0.296459 0.059919
3 -1.225579 -0.447545 -1.673123 2.050545
4 1.739508 -0.400829 1.338679 2.328644

所以它的用户决定了评估的顺序(而不是按需)。理论上 numba 将支持这一点,因此 pandas 可能支持将其作为 eval 的后端(目前使用 numexpr 进行即时评估)。

我的 2c。

惰性评估很好,但可以通过使用 python 自己的延续/生成功能轻松实现,因此将其构建到 pandas 中虽然可能,但非常棘手,并且需要一个非常好的用例才能普遍使用。

关于python - 如何在 Pandas 中创建 lazy_evaluated 数据框列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19605537/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com