gpt4 book ai didi

python - 使用 MultiIndex 沿多个维度对 Pandas 系列进行切片的有效方法是什么?

转载 作者:太空宇宙 更新时间:2023-11-04 10:37:38 26 4
gpt4 key购买 nike

我迷失在 ix、xs、MultiIndex、get_level_values 和其他 Pandas 的海洋中。

我有一个具有 3 级多索引的系列。根据不同级别的值对系列进行切片的有效方法是什么?

我的系列看起来像这样:

days  id                      start_date
0 S0036-4665(00)04200108 2013-05-18 1
3 S0036-4665(00)04200108 2013-05-18 1
5 S0036-4665(00)04200108 2013-05-18 3
13 S0036-4665(00)04200108 2013-05-18 1
19 S0036-4665(00)04200108 2013-05-18 1
39 S0036-4665(00)04200108 2013-05-18 1
...

很明显,id 和 start_date 的值随着名气的下降而变化

我希望能够根据以下内容进行切片: - 数字范围内的天数 - 特定集合中的 id - 特定日期范围内的开始日期

到目前为止,我找到了this solution ,建议使用 df[df.index.get_level_values('a').isin([5, 7, 10, 13])],我发现我可以这样做:

s.select(lambda x: x[0] < 20 and (x[1] in set('some id', 'other id') ))

这两个是最好的解决方案吗?我觉得我应该可以用 xs 或 ix 做点什么,但前者似乎只能让你按特定值过滤,而后者只能索引系列中的位置?

最佳答案

这是一个例子;这需要当前的主人,并将在 0.14 中可用。文档在这里:http://pandas-docs.github.io/pandas-docs-travis/indexing.html#multiindexing-using-slicers

创建一个多索引(这恰好是输入的笛卡尔积,但是没有必要)

In [28]: s = Series(np.arange(27),
index=MultiIndex.from_product(
[[1,2,3],
['foo','bar','bah'],
date_range('20130101',periods=3)])
).sortlevel()

始终确保您已完全排序

In [29]: s.index.lexsort_depth
Out[29]: 3

In [30]: s
Out[30]:
1 bah 2013-01-01 6
2013-01-02 7
2013-01-03 8
bar 2013-01-01 3
2013-01-02 4
2013-01-03 5
foo 2013-01-01 0
2013-01-02 1
2013-01-03 2
2 bah 2013-01-01 15
2013-01-02 16
2013-01-03 17
bar 2013-01-01 12
2013-01-02 13
2013-01-03 14
foo 2013-01-01 9
2013-01-02 10
2013-01-03 11
3 bah 2013-01-01 24
2013-01-02 25
2013-01-03 26
bar 2013-01-01 21
2013-01-02 22
2013-01-03 23
foo 2013-01-01 18
2013-01-02 19
2013-01-03 20
dtype: int64

这有助于定义以减少冗长(这将级别组合在一起用于单个轴)

In [33]: idx = pd.IndexSlice

选择我,其中级别 0 为 2,级别 1 为 bar 或 foo

In [31]: s.loc[idx[[2],['bar','foo']]]
Out[31]:
2 bar 2013-01-01 12
2013-01-02 13
2013-01-03 14
foo 2013-01-01 9
2013-01-02 10
2013-01-03 11
dtype: int64

同上,但是level 2等于20130102

In [32]: s.loc[idx[[2,3],['bar','foo'],'20130102']]
Out[32]:
2 bar 2013-01-02 13
foo 2013-01-02 10
3 bar 2013-01-02 22
foo 2013-01-02 19
dtype: int64

这是一个使用 bool 索引器而不是级别索引器的示例。

In [43]: s.loc[idx[[2,3],['bar','foo'],s<20]]
Out[43]:
2 bar 2013-01-01 12
2013-01-02 13
2013-01-03 14
foo 2013-01-01 9
2013-01-02 10
2013-01-03 11
3 foo 2013-01-01 18
2013-01-02 19
dtype: int64

这里是一个省略了一些级别的例子(注意我在这里没有使用idx,因为它们本质上等同于一个系列;在索引一个DataFrame时更有用)

In [47]: s.loc[:,['bar','foo'],'20130102']
Out[47]:
1 bar 2013-01-02 4
foo 2013-01-02 1
2 bar 2013-01-02 13
foo 2013-01-02 10
3 bar 2013-01-02 22
foo 2013-01-02 19
dtype: int64

关于python - 使用 MultiIndex 沿多个维度对 Pandas 系列进行切片的有效方法是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22545631/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com