python - Pandas :根据条件扩展均值并排除当前行-6ren

python - Pandas :根据条件扩展均值并排除当前行

转载作者：太空宇宙更新时间：2023-11-04 00:41:43

24

4

需要计算每个参赛队在某个时间点的平均每场比赛进球数 (rolling_avg)。由于我的数据库是高度规范化的，因此这需要花费大量时间(+8k 行)

注意事项:

我计算的是一场比赛的总进球数(第 0 列)，而不是每支球队的进球数。
这里省略了一些额外的列，但可能是相关的:其中之一是 date_time 列。

示例:在第 1 行(第二行)中，我们可以看到 1249 队的第一场比赛(他们在客场比赛)。在这场比赛中，有3个进球入账。 1249 队的下一场比赛在第 10 行进行，因为这次该队在主场比赛(因为它的 id 出现在 home_team_id)，我希望 home_rolling_avg 等于 3。它不应该考虑当前行。

问题:

我如何根据 total_goals 中的先前值并排除当前行来计算每个团队的目标扩展 average/mean，并将此平均值分配给相关列(取决于球队是主场还是客场)？

    total_goals  home_team_id  away_team_id  home_goals  away_goals  home_rolling_avg  away_rolling_avg
0             2          1277          1241           1           1               NaN               NaN
1             3          1245          1249           2           1               NaN               NaN
2             1          1242          1246           0           1               NaN               NaN
3             4          1261          1248           1           3               NaN               NaN
4             2          1259          1240           2           0               NaN               NaN
5             3          2981          1268           1           2               NaN               NaN
6             1          1244          1255           1           0               NaN               NaN
7             1          1254          1276           1           0               NaN               NaN
8             7          1247         12140           5           2               NaN               NaN
9             3          5681          1270           2           1               NaN               NaN
10            1          1249          5681           0           1               NaN               NaN
# in line 10 above, 'home_rolling_avg' should show 3 (3/1)

更新:

可以找到更大的样本 (n=100) here .应种类要求添加piRSquared (answer here)。

最佳答案

# easy tracking of long column names
hw = ['home_team_id', 'away_team_id']

# I found it easier to melt myself with some numpy help
hw_vals = df[hw].values.ravel()  # flatten 2 columns
idx_rep = df.index.values.repeat(2)  # repeat index [0, 0, 1, 1, ...
tot_rep = df.total_goals.values.repeat(2)  # repeat totals [2, 2, 3, 3, ...

# This is the reshaped series of team ids with total_goals
s = pd.Series(tot_rep, [idx_rep, hw_vals])

# groupby with a combination of expanding().mean() and shift()
e = s.groupby(level=1).apply(lambda x: x.expanding().mean().shift()).dropna()

# style preference of mine to do assignments using index values
# and to get it done in one line
df.set_index(hw[0], append=1).assign(home_rolling_avg=e).reset_index(hw[0]) \
  .set_index(hw[1], append=1).assign(away_rolling_avg=e).reset_index(hw[1])

更深入的解释

这道题的主要“技巧”之一是将两列中的 ID 识别为公共(public) ID。我们可以使用 pd.melt ，我做到了。但我发现语法比我最终做的更难看。而且我知道 numpy 无论如何都做得更快。
- 我有两列 ID，我用 ravel 将其展平.这将使长度增加一倍。在此示例中，长度从 10 变为 20。
- 然后我使用 repeat 创建现有索引的新版本.索引中的每个值都会重复。例如，[1, 2] 变为 [1, 1, 2, 2]。我将结合 ID 本身使用它来创建多索引
- 重复与上面类似的 total_goals 列
- 创建一个 pandas 系列，其值为 total_goals 和一个多索引，其中包含作为第一层的先验索引，以及作为第二层的团队 ID。通过将数组列表作为索引参数传递来指定多索引 [idx_rep, hw_vals]
现在我有了这个系列，我可以按索引的第二级 level=1 进行分组，然后执行 expanding().mean()。
- 但是，我需要将其作为 lambda 执行，以便将其延迟或移动一个周期。滞后/偏移是必要的，以仅考虑到当前匹配但不包括当前匹配的扩展平均值。
我们可以使用连接或许多其他技术来将相关信息与原始数据集结合起来。但是，这对我来说感觉更自然。
- 通过将 include 设置为主队 ID，然后我可以 assign将新列包含到副本中。我喜欢这种方法，因为它允许我链接命令。所以我这样做了，通过重置索引并为客队重复该过程。作业之所以有效，是因为索引自然排列。

替代方法
使用来自 collections
的 defaultdict + Counter与史蒂文鲁什非常相似

from collections import defaultdict, Counter
c, d = Counter(), defaultdict(int)
home_avgpg = pd.Series(index=df.index)
away_avgpg = pd.Series(index=df.index)

for row in df.itertuples():
    h = row.home_team_id
    a = row.away_team_id
    t = row.total_goals
    if h in c:
        home_avgpg.set_value(i, d[h] / c[h])
    if a in c:
        away_avgpg.set_value(i, d[a] / c[a])
    d[h] += t
    d[a] += t
    c.update([h, a])

@StevenRauch 的回答非常快。

关于python - Pandas :根据条件扩展均值并排除当前行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41667546/

24

4

0

文章推荐： node.js - 为什么我的 Node.js 服务器进程被克隆？

文章推荐： c - 增量同步原语

文章推荐： javascript - 通过ajax和url更新页面而不重新加载页面(node.js)

文章推荐： c++ - 编译麻烦c转c++反

pandas - Pandas 交叉表与 Pandas 数据透视表有何不同？
pandas.crosstab 和 Pandas 数据透视表似乎都提供了完全相同的功能。有什么不同吗？最佳答案 pivot_table没有 normalize争论，不幸的是。在 crosstab
pandas - 从 pandas 值序列创建 pandas 区间序列
我能找到的最接近的答案似乎太复杂:How I can create an interval column in pandas? 如果我有一个如下所示的 pandas 数据框: +-------+ |
pandas - 将一列值移动到另一列 - Pandas
这是我用来将某一行的一列值移动到同一行的另一列的当前代码: #Move 2014/15 column ValB to column ValA df.loc[(df.Survey_year == 201
pandas - 如何将包含 bins 的 pandas 数据框写入文件以便将其读回 pandas？
我有一个以下格式的 Pandas 数据框: df = pd.DataFrame({'a' : [0,1,2,3,4,5,6], 'b' : [-0.5, 0.0, 1.0, 1.2, 1.4,
pandas - Pandas 数据框行上的克罗内克积
所以我有这两个数据框，我想得到一个新的数据框，它由两个数据框的行的克罗内克积组成。正确的做法是什么？举个例子:数据框1 c1 c2 0 10 100 1 11 110 2 12
pandas - Pandas 条形图中的刻度标签重叠
TL;DR:在 pandas 中，如何绘制条形图以使其 x 轴刻度标签看起来像折线图？我制作了一个间隔均匀的时间序列(每天一个项目)，并且可以像这样很好地绘制它: intensity[350:450
pandas - Pandas 中两个时间戳之间的差异
我有以下两个时间列，“Time1”和“Time2”。我必须计算 Pandas 中的“差异”列，即 (Time2-Time1): Time1 Time2
pandas - ( Pandas )根据顺序无关紧要的子集删除重复项
从这个 df 去的正确方法是什么: >>> df=pd.DataFrame({'a':['jeff','bob','jill'], 'b':['bob','jeff','mike']}) >>> df
pandas - Pandas 中唯一值的累积计数
我想按周从 Pandas 框架中的列中累积计算唯一值。例如，假设我有这样的数据: df = pd.DataFrame({'user_id':[1,1,1,2,2,2],'week':[1,1,2,1,
pandas - Pandas 更改数据透视表中列的顺序
数据透视表的表示形式看起来不像我在寻找的东西，更具体地说，结果行的顺序。我不知道如何以正确的方式进行更改。 df示例: test_df = pd.DataFrame({'name':['name_1
pandas - Pandas 中的分组召回
我有一个数据框，如下所示。 Category Actual Predicted 1 1 1 1 0
pandas - 计算从日期时间列到特定日期的天数 - pandas
我有一个 df，如下所示。 df: ID open_date limit 1 2020-06-03 100 1 2020-06-23 500
pandas - 删除不等于唯一项目值的行 - Pandas
我有一个 df ，其中包含与唯一值关联的各种字符串。对于这些唯一值，我想删除不等于单独列表的行，最后一行除外。下面使用 Label 中的各种字符串值与 Item 相关联.所以对于每个唯一的 Item
pandas - Pandas 按索引删除列会删除所有具有相同名称的列
考虑以下具有相同名称的列的数据框（显然，这确实发生了，目前我有一个像这样的数据集！:(） >>> df = pd.DataFrame({"a":range(10,15),"b":range(5,10)
pandas - Pandas DF中的重复行
我在 Pandas 中有一个 DF，它看起来像: Letters Numbers A 1 A 3 A 2 A 1 B 1 B 2
pandas - Pandas 两列之间的时差
如何减去两列之间的时间并将其转换为分钟 Date Time Ordered Time Delivered 0 1/11/19 9:25:00 am 10:58:00 am
pandas - pandas 使用哪种方法计算百分位数？
我试图理解 pandas 中的下/上百分位数计算，但有点困惑。这是它的示例代码和输出。 test = pd.Series([7, 15, 36, 39, 40, 41]) test.describe(
pandas - 如何提取多索引数据帧的索引名称，pandas
我有一个多索引数据框，如下所示: TQ bought HT Detailed Instru
pandas - Pandas :根据字符串计数创建直方图
我需要从包含值“低”，“中”或“高”的数据框列创建直方图。当我尝试执行通常的df.column.hist（）时，出现以下错误。 ex3.Severity.value_counts() Out[85]:
pandas - Pandas 中的子字符串列基于另一列
我试图根据另一列的长度对一列进行子串，但结果集是 NaN .我究竟做错了什么？ import pandas as pd df = pd.DataFrame([['abcdefghi','xyz'],

首页

博学

6Ren·AI

商城

python - Pandas :根据条件扩展均值并排除当前行

更新: