Python/ Pandas : Finding a left and right max-6ren

Python/ Pandas : Finding a left and right max

转载作者：行者123 更新时间：2023-12-04 08:55:00

25

4

我有一个 Pandas 数据框，第一列有一个区域，其余的有 8 年的季度数据。大约有 4400 行。这是一个示例:

idx Q12000      Q22000      Q32000      Q42000      Q12001      Q22001      Q32001     Q42001      Q12002      Q22002      Q32002      Q42002

0   4085280.0   4114911.0   4108089.0   4111713.0   4055699.0   4076430.0   4043219.0  4039370.0   4201158.0   4243119.0   4231823.0   4254681.0
1   21226.0     21566.0     21804.0     22072.0     21924.0     23232.0     22748.0    22258.0     22614.0     22204.0     22500.0     22660.0     
2   96400.0     102000.0    98604.0     97086.0     96354.0     103054.0    97824.0    95958.0     115938.0    123064.0    120406.0    120648.0   
3   23820.0     24116.0     24186.0     23726.0     23504.0     23574.0     23162.0    23078.0     22306.0     22334.0     22152.0     22080.0     
4   7838.0      7906.0      7714.0      7676.0      7480.0      7520.0      7102.0     6722.0      8324.0      8166.0      8208.0      8326.0

这是一张图片，描述了我正在尝试计算的内容:
timeline

最低点 :最低点(分钟)

nadir_qtr :最低点发生的季度

峰前 : 最低点前的最高点

pre-peak_qtr :前峰值发生的季度

高峰后 : 最低点后的最高点

post-peak_qtr :出现高峰后的季度
恢复:最低点之后的一个季度，数字超过了峰值前

我可以很容易地计算出最低点。

df['nadir'] = df.iloc[:,2:].min(axis=1)
df['nadir_qtr'] = df.iloc[:,2:].idxmin(axis=1)

idx Q12000      Q22000      Q32000      Q42000      Q12001      Q22001      Q32001     Q42001      Q12002      Q22002      Q32002      Q42002      nadir      nadir_qtr

0   4085280.0   4114911.0   4108089.0   4111713.0   4055699.0   4076430.0   4043219.0  4039370.0   4201158.0   4243119.0   4231823.0   4254681.0   4039370.0  Q42001
1   21226.0     21566.0     21804.0     22072.0     21924.0     23232.0     22748.0    22258.0     22614.0     22204.0     22500.0     22660.0     21226      Q12000 
2   96400.0     102000.0    98604.0     97086.0     96354.0     103054.0    97824.0    95958.0     115938.0    123064.0    120406.0    120648.0    95958.0    Q42001  
3   23820.0     24116.0     24186.0     23726.0     23504.0     23574.0     23162.0    23078.0     22306.0     22334.0     22152.0     22080.0     22080.0    Q42002
4   7838.0      7906.0      7714.0      7676.0      7480.0      7520.0      7102.0     6722.0      8324.0      8166.0      8208.0      8326.0      6722.0     Q42001

但是当谈到获得前或后峰值或季度时，我很难受困。我最接近的是这样的:

df['pre-peak'] = df.loc[:,:df['nadir_qtr'].max(axis=1)
df['pre-peak_qtr'] = df.loc[:,:df['nadir_qtr']].idxmax(axis=1)

预期输出:

idx Q12000      Q22000      Q32000      Q42000      Q12001      Q22001      Q32001     Q42001      Q12002      Q22002      Q32002      Q42002      nadir      nadir_qtr   pre-peak      pre-peak_qtr

0   4085280.0   4114911.0   4108089.0   4111713.0   4055699.0   4076430.0   4043219.0  4039370.0   4201158.0   4243119.0   4231823.0   4254681.0   4039370.0  Q42001      4114911.0     Q22000
1   21226.0     21566.0     21804.0     22072.0     21924.0     23232.0     22748.0    22258.0     22614.0     22204.0     22500.0     22660.0     21226.0    Q12000      NaN           NaN
2   96400.0     102000.0    98604.0     97086.0     96354.0     103054.0    97824.0    95958.0     115938.0    123064.0    120406.0    120648.0    95958.0    Q42001      103054.0      Q22001
3   23820.0     24116.0     24186.0     23726.0     23504.0     23574.0     23162.0    23078.0     22306.0     22334.0     22152.0     22080.0     22080.0    Q42002      24816.0       Q32000
4   7838.0      7906.0      7714.0      7676.0      7480.0      7520.0      7102.0     6722.0      8324.0      8166.0      8208.0      8326.0      6722.0     Q42001      7906.0        Q2200

但是任何变化都会给我错误的数据或错误(最常见的是)

TypeError: reduction operation 'argmax' not allowed for this dtype

我尝试了很多策略，强制将每一行作为一个 numpy 数组进行迭代，分割每一行。我真的被困住了。

最佳答案

这是一种使用“辅助”功能的方法:

# create the data frame
from io import StringIO
import pandas as pd

data = ''' Q12000      Q22000      Q32000      Q42000      Q12001      Q22001      Q32001     Q42001      Q12002      Q22002      Q32002      Q42002

0   4085280.0   4114911.0   4108089.0   4111713.0   4055699.0   4076430.0   4043219.0  4039370.0   4201158.0   4243119.0   4231823.0   4254681.0
1   21226.0     21566.0     21804.0     22072.0     21924.0     23232.0     22748.0    22258.0     22614.0     22204.0     22500.0     22660.0     
2   96400.0     102000.0    98604.0     97086.0     96354.0     103054.0    97824.0    95958.0     115938.0    123064.0    120406.0    120648.0   
3   23820.0     24116.0     24186.0     23726.0     23504.0     23574.0     23162.0    23078.0     22306.0     22334.0     22152.0     22080.0     
4   7838.0      7906.0      7714.0      7676.0      7480.0      7520.0      7102.0     6722.0      8324.0      8166.0      8208.0      8326.0      
'''
df = pd.read_csv(StringIO(data), sep='\s+', engine='python')

其次，定义辅助函数:

def calc_nadir(s):
    assert isinstance(s, pd.Series)
    return s.min()

def calc_nadir_qtr(s):
    return s.argmin()

def calc_pre_peak(s):
    return s[ : s.argmin()].max()

def calc_pre_peak_quarter(s):
    try:
        qtr = s[ : s.argmin()].argmax()
    except:
        qtr = None
    return qtr

def calc_post_peak(s):
    return s[s.argmin() : ].max()

def calc_post_peak_qtr(s):
    return s[s.argmin() : ].argmax() + s.argmin()

第三，我们使用辅助函数并组合结果:

nadir = df.apply(lambda x: calc_nadir(x), axis=1).rename('nadir')
nadir_qtr = df.apply(lambda x: calc_nadir_qtr(x), axis=1).rename('nadir_qtr')

pre_peak = df.apply(lambda x: calc_pre_peak(x), axis=1).rename('pre_peak')
pre_peak_qtr = df.apply(lambda x: calc_pre_peak_quarter(x), axis=1).rename('pre_peak_qtr')

post_peak = df.apply(lambda x: calc_post_peak(x), axis=1).rename('post_peak')
post_peak_qtr = df.apply(lambda x: calc_post_peak_qtr(x), axis=1).rename('post_peak_qtr')

results = pd.concat([nadir, nadir_qtr, pre_peak, pre_peak_qtr, 
                     post_peak, post_peak_qtr], axis=1)
print(results)

       nadir  nadir_qtr   pre_peak  pre_peak_qtr  post_peak  post_peak_qtr
0  4039370.0          7  4114911.0           1.0  4254681.0             11
1    21226.0          0        NaN           NaN    23232.0              5
2    95958.0          7   103054.0           5.0   123064.0              9
3    22080.0         11    24186.0           2.0    22080.0             11
4     6722.0          7     7906.0           1.0     8326.0             11

关于Python/ Pandas : Finding a left and right max，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63876495/

25

4

0

文章推荐： c - 我的中断没有更新我的主值，我应该如何设置我的中断？

文章推荐： c# - Number of Uploaded files 功能不显示错误信息

文章推荐： javascript - BigQuery 支持哪些 JS 语法？

mongodb - pymongo find() vs mongodb find()，pymongo find() 给出的文档数据较少
我有一个合作伙伴集合，我正在使用 pymongo 来检索数据当我使用 MongoDB 查询集合时，我看到以下结果 db.partner.find({'unique_key': 'c89dbe313
find - Linux find 命令有什么问题？
嗨，我正在尝试在一个 find 命令中查找所有 js 和 css 文件。我尝试了以下所有方法但徒劳无功: find WebContent -name "*.[jc]ss?" find WebConte
find - 使用 find 命令搜索所有具有某种文本模式的文件
我使用以下 find 命令查找并显示所有具有输入文本模式的文件。找。 -type f -print|xargs grep -n "模式" 我有很多项目文件夹，每个文件夹都有自己的名为“Makefi
find - Gnuwin32 find.exe在执行搜索之前会扩展通配符
我在Windows环境中使用Gnuwin32二进制文件。当我想查找某种类型的文件时（例如PDF），我通常运行： find . -iname '*.pdf' -print 这在任何UNIX系统上均可完
find - 使用带有两个向量的 find() 函数
我使用的是 Julia 编程语言，我知道你可以通过以下方式使用 find 函数: a = [ 1 2 3 4 3 5 3 6 7 8 9 3 ] find(a .== 3) 它将返回:3,5,7,12
javascript - find ('a,b' ) 比 find ('a' )+find ('b' 慢，为什么？
jsperf's link 我不是 jQuery 专家(甚至不是一个好的用户)，我没有研究它的整个源代码(只有一小部分不能帮助我解决这个问题)。有人可以为我解释一下吗？最佳答案这个: $p.fi
python -/cs/software/anaconda3/compiler_compat/ld : cannot find -lm cannot find -lpthread cannot find -lc
我应该如何在 CentOS 7 中修复这个错误？ [jalal@goku HW4]$ git clone https://github.com/pathak22/pyflow.git Cloning
find - 更改 {} 的参数 find exec
是否可以更改传递给 find 中的 exec 的参数？例如，我需要以不同的名称复制文件:*.txt -> *.new.txt现在我正在为两个命令执行此操作: find /root/test -name
find - clearcase: find -name 不允许多个模式？
我想通过cleartool find 命令找到*.cs 和*.cpp 文件。但它失败了。 cleartool find "M:\test_view\code" -name "*.cs *.cpp"
python - pymongo find() 与 find()[:]?
我正在使用 PyMongo，看到有人建议使用 find()[:] 而不是 find()。很好奇有什么区别？最佳答案 [:] 制作列表的浅拷贝，因此对对象的引用是相同的。我查看了 Pymongo 文档
ruby - 如何处理 Find.find 中的异常
我正在处理文件和目录，以在每个目录中查找最近修改的文件。我的代码可以工作，但作为 Ruby 的新手，我无法正确处理错误。我使用 Find.find 获取递归目录列表，为每个目录调用我自己的函数 ne
c++ -/usr/bin/ld : cannot find -ldlib/usr/bin/ld: cannot find -lcblas/usr/bin/ld: cannot find -llapack
/usr/bin/ld: cannot find -ldlib /usr/bin/ld: cannot find -lcblas /usr/bin/ld: cannot find -llapack 在
find - bash find 链接到一个 grep 然后打印
我有一些数据文件的一系列索引文件，它们基本上采用这种格式索引文件:asdfg.log.1234.2345.index 数据文件:asdfg.log 这个想法是搜索所有索引文件。如果值 XXXX 出现
find - 如何防止 find 打印 .git 文件夹？
我有一个 find我运行以查找名称包含 foo 的文件的命令. 我想跳过 .git目录。下面的命令有效除了它打印一个烦人 .git任何时候它跳过 .git目录: find . ( -name .
find - 'find' 与 'xargs' 和 'tar'
我有以下想做的事情: find . -maxdepth 6 \( -name \*.tar.gz -o -name bediskmodel -o -name src -o -name ciao -o
javascript - 在 find 的结果集上使用 jquery find
当我在表中查找隐藏字段时，我看到了两个隐藏字段。但是，我想通过 ID 进一步细化这两个字段。我注意到，当我使用“包含”在整个表上使用 find 时，我得到了 2 个字段。但是，如果我对隐藏字段的查找结
find - 列出所有文件的 md5sum : find command with xargs?
我正在使用下面的命令生成文件列表及其 m5sum。问题是某些文件或文件夹的名称中有空格。我将如何处理这些？ find -type f -name \* | xargs md5sum 最佳答案尝试:
find - 列出所有文件的 md5sum : find command with xargs?
我正在使用下面的命令生成文件列表及其 m5sum。问题是某些文件或文件夹的名称中有空格。我将如何处理这些？ find -type f -name \* | xargs md5sum 最佳答案尝试:
regex - Find -regex 比 find | 慢grep
我有一个使用正则表达式查找文件的脚本。代码如下: find $dir | grep "$regex" 脚本运行有点慢，我想优化一下。搜索需要一些时间来执行，我想从中获得更好的性能。我试过这种尝试: f
javascript - 类型错误 : Cannot find function find in object
这令人沮丧。我认为问题出在 api 响应返回的对象上。也许它是在字符串中，所以我所做的就是复制“postman”的响应并将其直接粘贴到js上。这样我就可以确定它在对象/数组中。但结果还是同样的错误。

首页

博学

6Ren·AI

商城

Python/ Pandas : Finding a left and right max