python - 为 pandas DataFrame 滚动 idxmin/max-6ren

python - 为 pandas DataFrame 滚动 idxmin/max

转载作者：行者123 更新时间：2023-12-05 06:54:27

39

4

我相信以下函数是 pandas DataFrame 滚动 argmin/max 的有效解决方案:

import numpy as np

def data_frame_rolling_arg_func(df, window_size, func):
    ws = window_size
    wm1 = window_size - 1
    return (df.rolling(ws).apply(getattr(np, f'arg{func}'))[wm1:].astype(int) +
            np.array([np.arange(len(df) - wm1)]).T).applymap(
                lambda x: df.index[x]).combine_first(df.applymap(lambda x: np.NaN))

灵感来自a partial solution for rolling idxmax on pandas Series .

解释:

将 numpy argmin/max 函数应用于滚动窗口。
仅保留非NaN 值。
将值转换为 int。
将值重新对齐到原始行号。
使用 applymap 将行号替换为索引值。
与填充有 NaN 的原始 DataFrame 结合，以添加具有预期 NaN 值的第一行。


In [1]: index = map(chr, range(ord('a'), ord('a') + 10))

In [2]: df = pd.DataFrame((10 * np.random.randn(10, 3)).astype(int), index=index)

In [3]: df                                                                                                                                                                                                                                                                       
Out[3]: 
    0   1   2
a  -4  15   0
b   0  -6   4
c   7   8 -18
d  11  12 -16
e   6   3  -6
f  -1   4  -9
g   6 -10  -7
h   8  11 -25
i  -2 -10  -8
j   0  10  -7

In [4]: data_frame_rolling_arg_func(df, 3, 'max')                                                                                                                                                                                                                                
Out[4]: 
     0    1    2
a  NaN  NaN  NaN
b  NaN  NaN  NaN
c    c    a    b
d    d    d    b
e    d    d    e
f    d    d    e
g    e    f    e
h    h    h    g
i    h    h    g
j    h    h    j

In [5]: data_frame_rolling_arg_func(df, 3, 'min')                                                                                                                                                                                                                                
Out[5]: 
     0    1    2
a  NaN  NaN  NaN
b  NaN  NaN  NaN
c    a    b    c
d    b    b    c
e    e    e    c
f    f    e    d
g    f    g    f
h    f    g    h
i    i    g    h
j    i    i    h

我的问题是:

你能找出任何错误吗？
有更好的解决方案吗？即:性能更高和/或更优雅。

对于那里的 pandas 维护者:如果已经很棒的 pandas 库包含滚动 idxmax 和 idxmin 就好了。

最佳答案

我在对 OP 的评论中提到的 NaN 问题可以通过以下方式解决:

import numpy as np
import pandas as pd


def data_frame_rolling_idx_func(df, window_size, func):
    ws = window_size
    wm1 = window_size - 1
    return (df.rolling(ws, min_periods=0).apply(getattr(np, f'arg{func}'),
                                                raw=True)[wm1:].astype(int) +
            np.array([np.arange(len(df) - wm1)]).T).applymap(
                lambda x: df.index[x]).combine_first(df.applymap(lambda x: np.NaN))


def main():
    index = map(chr, range(ord('a'), ord('a') + 10))
    df = pd.DataFrame((10 * np.random.randn(10, 3)).astype(int), index=index)
    df[0][3:6] = np.NaN
    print(df)
    print(data_frame_rolling_arg_func(df, 3, 'min'))
    print(data_frame_rolling_arg_func(df, 3, 'max'))


if __name__ == "__main__":
    main()

结果:

$ python demo.py 
      0   1   2
a   3.0   0   7
b   1.0   3  11
c   1.0  15  -6
d   NaN   2 -16
e   NaN   0  24
f   NaN   0  14
g   2.0   0   4
h  -1.0 -11  16
i  17.0   0  -2
j   3.0  -5  -8
     0    1    2
a  NaN  NaN  NaN
b  NaN  NaN  NaN
c    b    a    c
d    d    d    d
e    d    e    d
f    d    e    d
g    e    e    g
h    f    h    g
i    h    h    i
j    h    h    j
     0    1    2
a  NaN  NaN  NaN
b  NaN  NaN  NaN
c    a    c    b
d    d    c    b
e    d    c    e
f    d    d    e
g    e    e    e
h    f    f    h
i    i    g    h
j    i    i    h

NaN 值的处理有点微妙。我希望我的滚动 idxmin/max 函数能够与常规 DataFrame 滚动 min/max 函数很好地协作。默认情况下，只要窗口输入显示 NaN 值，它们就会生成一个 NaN 值。默认情况下，滚动 apply 功能也是如此。但是对于 apply 函数来说，这是个问题，因为我无法将 NaN 值转换为索引。然而，这很遗憾，因为输出中的 NaN 值显示出来是因为它们可以在输入中找到，所以输入中的 NaN 值索引就是我想要的就像我要生成的滚动 idxmin/max 函数一样。幸运的是，如果我使用以下参数组合，这正是我将得到的结果:

min_periods=0 用于 pandas rolling 功能。然后，apply 函数将有机会生成自己的值，而不管在输入窗口中找到了多少个 NaN 值。
raw=True 用于apply 函数。此参数确保应用函数的输入作为 numpy 数组而不是 pandas 系列传递。 np.argmin/max 将返回第一个输入 NaN 值的索引，这正是我们想要的。应该注意的是，如果没有 raw=True，即在 pandas Series 的情况下，np.argmin/max 似乎忽略了 NaN 值，这不是我们想要的。 raw=True 的好处在于它也应该提高性能!稍后会详细介绍。

关于python - 为 pandas DataFrame 滚动 idxmin/max，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65526535/

39

4

0

文章推荐： html - CSS向圆形图像添加不透明颜色叠加

文章推荐： python - 快速移动窗口时小部件消失

c# - Lambda Max 和 Max 和 Max
快速且可能简单的 Lambda 问题: 我有一家有评论的餐厅。我想查询具有以下内容的那个: 最大(平均评分) 和 Max(ReviewCount) 和 Max(NewestReviewDate) 和
c++ - 我可以使用折叠表达式实现 max(A, max(B, max(C, D))) 吗？
在尝试使用 C++17 折叠表达式时，我尝试实现 max sizeof ，其中结果是类型 sizeof 的最大值。我有一个使用变量和 lambda 的丑陋折叠版本，但我想不出一种使用折叠表达式和 st
c - 在C中，为什么 "int MAX = 10^6...int arr[MAX]"不会崩溃，但 "int MAX = 1000000...int arr[MAX]"会崩溃？
我目前正在使用 C 并遇到了一些我觉得有趣的东西，但似乎在这里找不到任何类似的东西。我正在为数组(大小 1000000)静态分配内存。我知道这相当大并且有可能引起问题。但是，使用 10^6 不会出现
css - firefox css max-width 和 max-height 内 max-height div
我有一个具有 max-height 的 div 和其中的图像，应该使用 max-width:100% 和 max-height:100%。在 Chromium 中，这是可行的，但 Firefox 仅使
css - firefox css max-width 和 max-height 里面的 max-height div
我有一个最大高度的 div 和里面的一个图像，它应该使用最大宽度:100% 和最大高度:100%。在 Chromium 中，这是可行的，但 Firefox 仅使用最大宽度而忽略最大高度。 div#ov
awk - 解释 awk 命令 `awk ' { if (NF > max) max = NF } END { print max }'
在一本在线 awk 手册中我找到了例子awk '{ if (NF > max) max = NF } END { print max }' 该程序打印任何输入行上的最大字段数。但我不明白 awk 如何
sql - 使用 VARCHAR(max)、NVARCHAR(max) 和 VARBINARY(max) 代替 TEXT、NTEXT 和 IMAGE 有什么好处？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
mysql - MYSQL 上的 Max of Max
我正在制作一个非循环图数据库。表 Material (id_item，id_collection，...)主键(id_item，id_collection) (item可以是collection本身
MYSQL、Max、Group by 和 Max
我有以下两个表。 1.电影详情(电影ID、电影名称、评分、票数、年份) 2.电影类型(Movie-ID,Genre) 我正在使用以下查询来执行连接并获得每个评分最高的电影流派。 select Movi
MySQL max() - 不返回 max() 值
我有一个查询，我想返回 idevent 中给定传感器 ID (sensorID) 范围内的最高 ID 值，但是查询没有返回最高值。我运行查询时减去 max() 语句的结果: mysql> SELEC
mysql - SUM(MAX( ) + MAX( )) 怎么做？
SUM(MAX() + MAX()) 有正确的方法吗？这是我一直在努力做的事情 SELECT SUM(MAX(account.BALANCE1) + MAX(account.BALANCE2))
css - 多个媒体查询 : max-width or max-height
这个问题类似于CSS media queries: max-width OR max-height , 但由于我的代表不够高，我无法在回复中添加评论(问题)，我想在原始问题中添加。与其他主题中的发帖
.net - Math.Max 与 Enumerable.Max
Jon Skeet今天报告(source): Math.Max(1f, float.NaN) == NaN new[] { 1f, float.NaN }.Max() == 1f 为什么？编辑:双倍
java - Stream.max(Integer::max) :意外结果
这个问题已经有答案了: Java 8 stream's .min() and .max(): why does this compile? (5 个回答) 已关闭 7 年前。我正在学习1z0-809
mysql - 以准确的 MAX 顺序在特定时间戳之间获取具有 MAX 值的记录
我在处理一些数据库记录时遇到了一些挑战。我需要为特定列获取具有 MAX 值的行，并且这些记录必须介于两个时间戳值之间。这是SQL查询 SELECT id, MAX(amount), created
CSS 媒体查询 : max-width And max-height
我想在媒体查询中使用 AND 条件。我使用了下面的代码，但是没有用 @media screen and (max-width: 995px AND max-height: 700px) { } 最佳答
CSS 媒体查询 : max-width OR max-height
在编写 CSS 媒体查询时，有什么方法可以用“或”逻辑指定多个条件吗？我正在尝试做这样的事情: /* This doesn't work */ @media screen and (max-widt
python - max 和 np.max 的区别
我对仅使用 max(list array) 和 np.max(list array) 之间的区别有疑问。这里唯一的区别是 Python 返回代码所需的时间吗？最佳答案它们在边缘情况下可能不同，例
python 为什么 max(max(float_2d_array)) 给出错误的答案？
例如: a = [[0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0], [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.
java - Stream.max(Integer::max) :意外结果
这个问题在这里已经有了答案: Java 8 stream's .min() and .max(): why does this compile? (5 个答案) 关闭 6 年前。我正在学习 1z0

首页

博学

6Ren·AI

商城

python - 为 pandas DataFrame 滚动 idxmin/max