gpt4 book ai didi

python - 如何在 Pandas 数据框的每一行上使用 .rolling()?

转载 作者:太空狗 更新时间:2023-10-29 21:57:56 26 4
gpt4 key购买 nike

我创建了一个 Pandas 数据框 df:

df.head()
Out[1]:
A B DateTime
2010-01-01 50.662365 101.035099 2010-01-01
2010-01-02 47.652424 99.274288 2010-01-02
2010-01-03 51.387459 99.747135 2010-01-03
2010-01-04 52.344788 99.621896 2010-01-04
2010-01-05 47.106364 98.286224 2010-01-05

我可以添加 A 列的移动平均值:

df['A_moving_average'] = df.A.rolling(window=50, axis="rows") \
.apply(lambda x: np.mean(x))

问题:如何添加 A 列 B 的移动平均值?

这应该可以,但是会报错:

df['A_B_moving_average'] = df.rolling(window=50, axis="rows") \
.apply(lambda row: (np.mean(row.A) + np.mean(row.B)) / 2)

错误是:

NotImplementedError: ops for Rolling for this dtype datetime64[ns] are not implemented

附录 A:创建 Pandas 数据框的代码

下面是我如何创建测试 Pandas 数据框 df:

import numpy.random as rnd
import pandas as pd
import numpy as np

count = 1000

dates = pd.date_range('1/1/2010', periods=count, freq='D')

df = pd.DataFrame(
{
'DateTime': dates,
'A': rnd.normal(50, 2, count), # Mean 50, standard deviation 2
'B': rnd.normal(100, 4, count) # Mean 100, standard deviation 4
}, index=dates
)

最佳答案

我找不到直接解决在 rolling 中使用多列的一般问题 - 但在您的特定情况下,您可以只取 A 列和 B 列的平均值,然后应用您的 滚动:

df['A_B_moving_average'] = ((df.A + df.B) / 2).rolling(window=50, axis='rows').mean()

正如解释:如果您使用 axis='rows'rolling 指定整个 DataFrame,则每列单独执行。所以:

df['A_B_moving_average'] = df.rolling(window=5, axis='rows').mean()

将首先为 A(有效)评估滚动窗口,然后为 B(有效),然后为 DateTime(无效,因此错误)。每个滚动窗口都是一个普通的 NumPy 数组,因此您无法访问“列名”。正如使用 print 的演示:

import numpy.random as rnd
import pandas as pd
import numpy as np
count = 10
dates = pd.date_range('1/1/2010', periods=count, freq='D')
df = pd.DataFrame(
{
'DateTime': dates,
'A': rnd.normal(50, 2, count), # Mean 50, standard deviation 2
'B': rnd.normal(100, 4, count) # Mean 100, standard deviation 4
}, index=dates
)
df[['A', 'B']].rolling(window=6, axis='rows').apply(lambda row: print(row) or np.max(row))

打印:

[ 47.32327354  48.12322447  50.86806381  49.3676319   47.81335338
49.66915104]
[ 48.12322447 50.86806381 49.3676319 47.81335338 49.66915104
48.01520798]
[ 50.86806381 49.3676319 47.81335338 49.66915104 48.01520798
48.14089864]
[ 49.3676319 47.81335338 49.66915104 48.01520798 48.14089864
51.89999973]
[ 47.81335338 49.66915104 48.01520798 48.14089864 51.89999973
48.76838054]
[ 100.10662696 96.72411985 103.24600664 95.03841539 95.23430836
102.30955102]
[ 96.72411985 103.24600664 95.03841539 95.23430836 102.30955102
95.18273088]
[ 103.24600664 95.03841539 95.23430836 102.30955102 95.18273088
97.36751546]
[ 95.03841539 95.23430836 102.30955102 95.18273088 97.36751546
99.25325622]
[ 95.23430836 102.30955102 95.18273088 97.36751546 99.25325622
105.16747544]

第一个来自 A 列,最后一个来自 B 列,它们都是普通数组。

关于python - 如何在 Pandas 数据框的每一行上使用 .rolling()?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45480708/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com