gpt4 book ai didi

python - 使用对单个元素进行操作的 lambda 表达式过滤 pandas 系列

转载 作者:太空宇宙 更新时间:2023-11-04 05:02:49 24 4
gpt4 key购买 nike

我正在尝试使用 pandas 将映射和过滤器操作链接在一起。我遇到过几种选择,部分概述如下: Pandas How to filter a Series

总而言之,

s = Series(range(10))

s.where(s > 4).dropna()
s.where(lambda x: x > 4).dropna()

s.loc[s > 4]
s.loc[lambda x: x > 4]

s.to_frame(name='x').query("x > 4")

这适用于数值比较和相等性检查,但不适用于涉及其他操作的谓词。举一个简单的例子,考虑匹配字符串的第一个字符。

s = Series(['aa', 'ab', 'ba'])
s.loc[lambda x: x.startswith('a')] # fails

这会失败并显示类似“Series has no attribute 'startswith'”的消息,因为在第二行中传递给 lambda 表达式的参数 x 是系列本身,而不是它包含的各个元素.

有趣的是 map 确实允许按元素访问:

Series(list('abcd')).map(lambda x: x.upper())
# results in ['A', 'B', 'C', 'D'] even though Series has no upper method

虽然可能有一些聪明的方法来处理 startswith 示例,但我希望找到一个更通用的解决方案,在该解决方案中,可以使用接受集合中单个值的函数来过滤系列。理想情况下,它允许将操作链接在一起,

s = (Series(...)
.map(...)
.where(...)
.map(...))

pandas 支持吗?

更新:Scott 为值是字符串的情况提供了答案,可以按照他的答案中所述使用 Series.str 进行处理。

但是如果 Series 包含对象呢?有什么方法可以访问它们的属性或对它们应用函数吗?

我想管理这种情况的标准方法是将对象的相关字段分解为一个数据框,其中每个属性都是一列。尽管在某些情况下,有人可能希望使用 map 和 filter(loc/where) 转换对象集合,但不必将复杂类型分解为数据框然后立即转换回来。

我部分地试图在 python 中找到标准 map()/filter() 函数的替代方法,其中操作必须反向嵌套。

即,

map(function3, filter(function2, map(function1, collection)))

最佳答案

使用.str Pandas 系列和字符串操作所需的字符串访问器。

s = Series(['aa', 'ab', 'ba'])
s.loc[lambda x: x.str.startswith('a')]

当您使用 map 时,您将字符串函数应用于每个元素,因此您不需要字符串访问器。

对于@piRSquared 在评论中的观点,你根本不需要 lambda,你可以使用 bool 索引。

s = pd.Series(['aa', 'ab', 'ba']) 
s.loc[s.str.startswith('a')]

s.str.startswith 返回一个 True False bool 系列,当将其放置在系列的 backets 中时,仅返回那些与 True 对齐的值。

关于python - 使用对单个元素进行操作的 lambda 表达式过滤 pandas 系列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45311972/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com