gpt4 book ai didi

python - 通过一系列 boolean 掩码过滤一系列列表中的列表元素

转载 作者:行者123 更新时间:2023-12-01 01:21:23 25 4
gpt4 key购买 nike

我有两个系列,如下所示:系列 1 有 str 列表,而系列 2 有 boolean 表达式的 numpy 数组。

但是我有大约 50,000 行,我想查看基于 boolean 表达式的值,例如

ser1 = pd.Series([[1, 2, 3], [4], [7, 8]])
ser2 = pd.Series([[True, False, True], [False], [True, True]])

ser1

0 [1, 2, 3]
1 [4]
2 [7, 8]
dtype: object

ser2

0 [True, False, True]
1 [False]
2 [True, True]
dtype: object

并且,

Output=[1,3],[],[7,8],....

我尝试了两种方法,但无法正确构建它们,第一种方法花费了太多时间,而第二种方法则不起作用。

output=[]
for i in range(len(Series1)):
output.append(Series1.apply(np.array)[i][Series2[i]])

output=[Series1.apply(lambda x: x[i]) for i in Series2]

您对我获得此输出有什么建议吗?
非常感谢。

最佳答案

ser1 = pd.Series([[1, 2, 3], [4], [7, 8]])
ser2 = pd.Series([[True, False, True], [False], [True, True]])

有几种方法可以做到这一点,但我不建议应用。一种选择是使用 numpy 的 boolean 索引来zip系列并进行过滤:

pd.Series([np.array(x)[y] for x, y in zip(ser1, ser2)])

0 [1, 3]
1 []
2 [7, 8]
dtype: object

如果您需要结果作为列表,请在末尾调用.tolist:

output = pd.Series([list(np.array(x)[y]) for x, y in zip(ser1, ser2)]).tolist()
output
# [[1, 3], [], [7, 8]]
<小时/>

您还可以将其设为具有嵌套列表理解的纯 Python 列表组合。

pd.Series([
[i for i, j in zip(x, y) if j] for x, y in zip(ser1, ser2)])

0 [1, 3]
1 []
2 [7, 8]
dtype: object

我推荐这个用于小列表,因为将列表转换为 numpy 数组(如第一个解决方案所做的那样)会产生大量开销。

<小时/>

如果可以选择扁平化列表,您应该考虑这样做,因为这可能是最快的选择。

from itertools import chain

ser3 = np.array(list(chain.from_iterable(ser1)))
ser4 = np.array(list(chain.from_iterable(ser2)))

ser3[ser4]
# array([1, 3, 7, 8])

不幸的是,您丢失了输入的结构,但如果这不是问题,那么这就是胜利者。

关于python - 通过一系列 boolean 掩码过滤一系列列表中的列表元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53803384/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com