gpt4 book ai didi

python - 在 Pandas DataFrame 中查找第一列匹配条件的矢量化方法

转载 作者:太空宇宙 更新时间:2023-11-03 13:26:46 25 4
gpt4 key购买 nike

假设我有以下 pandas DataFrame:

          A         B         C
0 0.548814 0.791725 0.978618
1 0.715189 0.528895 0.799159
2 0.602763 0.568045 0.461479
3 0.544883 0.925597 0.780529
4 0.423655 0.071036 0.118274
5 0.645894 0.087129 0.639921
6 0.437587 0.020218 0.143353
7 0.891773 0.832620 0.944669
8 0.963663 0.778157 0.521848
9 0.383442 0.870012 0.414662

可以使用以下代码创建:

import pandas as pd
import numpy as np

size = 10
np.random.seed(0)
keys = ["A", "B", "C"]
df = pd.DataFrame({k: np.random.random(size) for k in keys})

如何找到满足给定条件的第一个

在这种情况下,假设我的标准是我想要其中值小于某个 p 的第一列,比如 0.5。如果没有列满足此条件,我想返回 "No Match"

使用apply,可以按如下方式完成:

p = 0.5
first = df.apply(
lambda row: next((x for i, x in enumerate(df.columns) if row[x]<p), "No Match"),
axis=1
)
print(first)
#0 No Match
#1 No Match
#2 C
#3 No Match
#4 A
#5 B
#6 A
#7 No Match
#8 No Match
#9 A
#dtype: object

是否有更有效(矢量化)的方式来做到这一点?我认为应该有一些使用 argmax() 的方法,但我还没有让它工作。

此外,我使用的是 pandas 0.19.2,我不确定是否可以升级。

print(pd.__version__)
#u'0.19.2'

最佳答案

您可以使用 NumPy argmax,但需要覆盖给定行中从未满足条件的实例:

mask = df.lt(0.5)
df['first'] = np.where(mask.any(1), df.columns[mask.values.argmax(1)], 'No Match')

你也可以使用 Pandas idxmax:

df['first'] = np.where(mask.any(1), mask.idxmax(1), 'No Match')

print(df)

A B C first
0 0.548814 0.791725 0.978618 No Match
1 0.715189 0.528895 0.799159 No Match
2 0.602763 0.568045 0.461479 C
3 0.544883 0.925597 0.780529 No Match
4 0.423655 0.071036 0.118274 A
5 0.645894 0.087129 0.639921 B
6 0.437587 0.020218 0.143353 A
7 0.891773 0.832620 0.944669 No Match
8 0.963663 0.778157 0.521848 No Match
9 0.383442 0.870012 0.414662 A

关于python - 在 Pandas DataFrame 中查找第一列匹配条件的矢量化方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54028975/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com