Python/ Pandas : Finding index for the nlargest and keeping only those above a value-6ren

Python/ Pandas : Finding index for the nlargest and keeping only those above a value

转载作者：行者123 更新时间：2023-12-01 21:31:42

24

4

我想检索与包含 n 个最大值的列集相对应的 n 个列名。然后，仅当值高于给定阈值时，这些名称才会保留在列表中。

举个例子，给定三列“Paul”、“Eric”、“Marc”，假设我最多需要 2 个列名，阈值为 0.5。然后我将获得“最佳”列，如下所示:

import pandas as pd
import numpy as np

start = '2020-01-01 00:00+00:00'
end = '2020-01-01 05:00+00:00'

pr1h = pd.period_range(start=start, end=end, freq='1h')
r = len(pr1h)

df = pd.DataFrame(np.random.rand(r,3), index=pr1h, columns=['Paul', 'Marc', 'Eric'])

处理后:

df
                      Paul      Marc      Eric            Bests
2020-01-01 00:00  0.124974  0.525182  0.415339         ['Marc']
2020-01-01 01:00  0.991917  0.489479  0.668359 ['Paul', 'Eric']
2020-01-01 02:00  0.204156  0.610034  0.644715 ['Eric', 'Marc']
2020-01-01 03:00  0.385546  0.981641  0.089667         ['Marc']
2020-01-01 04:00  0.912330  0.711822  0.148064 ['Paul', 'Marc']
2020-01-01 05:00  0.301186  0.313572  0.323487               []

我可以在 this question/answer 上找到这显示了一种根据给定行中值的排名获取索引的方法。我想这可能是一个起点(可能在速度方面没有优化，因为运行了几次，但这似乎是一个好的开始。

然后我可以:

df1['1st_largest'] = df.columns[df.values.argsort(1)[:,-1]]
df2['2nd_largest'] = df.columns[df.values.argsort(1)[:,-2]]

我的数组不应超过 20 到 50 列，因此我保留使用 argsort 而不是 argpartition。

但现在，我陷入了困境。我不知道如何检查与这些列之一相关的值是否高于 0.5，以便我可以将其放入列表中。

欢迎任何帮助，谢谢!

最佳答案

一种方法是使用 where 和 stack 屏蔽数据帧:

df['Bests'] = (df.where(df.gt(0.5))         # change 0.5 to your threshold
                 .stack().groupby(level=0)
                 .apply(lambda x: x.nlargest(2).index
                                   .get_level_values(1).to_list()
                       )
              )

输出:

                      Paul      Marc      Eric         Bests
2020-01-01 00:00  0.124974  0.525182  0.415339        [Marc]
2020-01-01 01:00  0.991917  0.489479  0.668359  [Paul, Eric]
2020-01-01 02:00  0.204156  0.610034  0.644715  [Eric, Marc]
2020-01-01 03:00  0.385546  0.981641  0.089667        [Marc]
2020-01-01 04:00  0.912330  0.711822  0.148064  [Paul, Marc]
2020-01-01 05:00  0.301186  0.313572  0.323487           NaN

关于Python/ Pandas : Finding index for the nlargest and keeping only those above a value，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61962975/

24

4

0

文章推荐： sql - 如何获取销售订单的每一行都已关闭的销售订单？

文章推荐： PyQt。类型错误

文章推荐： java - 程序类型已存在 : org. json.CDL

HTTP Keep Alive 和 TCP Keep Alive
HTTP Keep Alive是如何实现的？它在内部使用 TCP Keep Alive 吗？如果不是，服务器如何检测客户端是死是活？最佳答案我知道这是一个老问题，但仍然: HTTP Keep-Al
http - Keep TCP connection keep alive and loop only GET 命令
我需要在每次连接到我的网站和获取数据时节省时间。这是我的工作。 ESP 模块连接到家庭 WiFi。 AT+CIPMUX=0 --> 响应OK AT+CWMODE=1 --> 响应OK AT+CIPS
c# - 建立 httpheader 连接 : Keep-Alive into lower-case "keep-alive"
我尝试添加新标题的方法: request.Headers.GetType().InvokeMember("ChangeInternal", BindingFlags.Instance | Bi
node.js - 连接:keep-alive is not keeping the socket connection for HTTP request in NodeJS
我听说 Connection:Keep-Alive header 会告诉服务器将客户端和服务器之间的连接保持一段时间，以防止每次客户端向服务器建立请求时都要付出努力。我尝试将其添加到请求的 heade
CSS Bootstrap : how do I keep side by side div keep content height equals on resize?
我遇到了一种我一直在研究的垂直 slider 的问题。问题是，当我更改显示分辨率时，右侧缩略图的高度与左侧图片的高度不同。很难用文字来解释，所以我做了一个代码笔来帮助我更好地理解它。是这样的: htt
php - http :keep-alive keep the php resources open or does it free all the resources? 吗
我在 apache 服务器上使用 http keep-alive，比方说我要求它保持连接打开最多 2 分钟... 现在，如果连接被创建并闲置一分钟，php 持有的资源，像 mysql 连接、文件句
android - '-keep class a.b.**' 和 '-keep class a.b.** {}' 之间的区别
我看到一些 proguard 配置有这样的行: -keep class a.b.** {} 我对 {} 的使用感到困惑。这个我知道 -keep class a.b.**表示保留包a.b及其子包中的所有
keep-alive保持组件状态的方法
keep-alive的设计初衷有些业务场景需要根据不同的判断条件，动态地在多个组件之间切换。频繁的组件切换会导致组件反复渲染，如果组件包含有大量的逻辑和dom节点，极易造成性能问题。其次，切换后组件
mysql "KEEP ONLY"命令？
我知道有一个 DELETE FROM WHERE mysql 中的命令，如果表达式有效，则从指定表中删除元组。然而，在取keep only表达式的补码时总是使用德摩根定律成为一种负担。我的问题
html - 页脚问题 : Can't Keep it Down
我已经尝试了 2 个小时让我的页脚留在底部。我一直在尝试“Matthew James Taylors”技术，但没有成功。有人看到我遗漏了什么或做错了什么吗？这是一个活生生的例子:http://g
javascript - 代码片段 : Where do I keep them?
是否有工具或流程可以让您的函数、选择器和“for 循环”方便且可搜索以供将来使用？我什么也没用，偶尔会重新学习我已经解决的类似问题。背景:我正在学习 jQuery 和 Javascript，并开始看
现代的http keep-alive
所以根据haproxy作者的说法，谁知道关于http的一两件事: Keep-alive was invented to reduce CPU usage on servers when CPUs we
netty中TCP keep-alive判断client是否断开
我正在尝试确定客户端是否已关闭来自 netty 的套接字连接。有办法做到这一点吗？最佳答案在客户端通过 close() 关闭套接字并且 TCP 关闭握手已成功完成的通常情况下，channelIna
git - "Keeping up"与远程主机在长期本地主题分支上工作时
我已经在本地主题分支上工作了一段时间，偶尔只做一些更改。与此同时，master 分支有了显着的发展。我决定将 master 分支中的新更改 merge 到我的本地主题分支中(与我从中分支出来的
vue keep-alive的简单总结
1、作用　　主要用于保留组件状态或避免重新渲染。 2、用法　　<keep-alive> 包裹动态组件时，会缓存不活动的组件实例，而不是销毁它们。　　<ke
http1.1的默认长连接Connection:keep-alive与TCPKeepAlive之间区别
HTTP 长连接，也称为 HTTP 持久连接（HTTP Persistent Connection）或 HTTP 连接重用，是一种在 HTTP 协议中实现的机制。在传统的 HTTP
dll - ILMerge & Keep 程序集名称
我需要合并一些 dll，文件名和程序集名称都需要与我的主 dll (mydll.dll) 相同。我还需要 pdb 文件。我如何完成这项工作？以下是我尝试过的一些方法: 只需使用 ILMerge my
django - 如何在表单验证错误中 "keep"上传的图像？
我有一个在其他字段中具有FileField的表单。假设用户选择了一个文件，然后按Submit(提交)，另一个字段触发了ValidationError。当我取回表单时，页面上出现错误，用户为文件字段选
scala - Keep in akka 流是什么意思？
我正在学习 akka 流，在代码中遇到了 Keep.left 和 Keep.right: implicit val system = ActorSystem("KafkaProducer") impl
svn - SVN删除--keep-local
我正在一个项目中，有人检查了一些文件夹和文件，这些文件夹和文件不应该位于存储库中，并且应该位于我们本地，我尝试通过以下命令删除它们，这给了我这个错误 svn delete filename --kee

首页

博学

6Ren·AI

商城

Python/ Pandas : Finding index for the nlargest and keeping only those above a value