gpt4 book ai didi

python - 用于级别名称的 Pandas 多索引切片

转载 作者:太空狗 更新时间:2023-10-30 00:07:08 25 4
gpt4 key购买 nike

最新版本的 Pandas 支持多索引切片器。但是,需要知道不同级别的整数位置才能正确使用它们。

例如以下内容:

idx = pd.IndexSlice
dfmi.loc[idx[:,:,['C1','C3']],idx[:,'foo']]

假设我们知道第三 行级别是我们要用C1C3 索引的行级别,并且second 列级别是我们要使用 foo 编制索引的级别。

有时我知道级别的名称,但不知道它们在多重索引中的位置。在这种情况下有没有办法使用多索引切片?

例如,假设我知道我想在每个级别名称上应用哪些切片,例如作为字典:

'level_name_1' -> ':' 
'level_name_2' -> ':'
'level_name_3' -> ['C1', 'C3']

但我不知道这些级别在多索引中的位置(深度)。 Pandas 是否为此内置了索引机制?

如果我知道关卡名称但不知道它们的位置,我还能以某种方式使用 pd.IndexSlice 对象吗?

PD:我知道我可以使用 reset_index() 然后只使用平面列,但我想避免重置索引(即使是暂时的)。我也可以使用 query,但是 query 要求索引名称与 Python 标识符兼容(例如,没有空格等)。


我所看到的与上述最接近的是:

df.xs('C1', level='foo')

其中 foo 是级别的名称,C1 是感兴趣的值。

我知道xs支持多​​键,例如:

df.xs(('one', 'bar'), level=('second', 'first'), axis=1)

但它支持切片或范围(像pd.IndexSlice一样)。

最佳答案

这仍然是一个 Unresolved 增强问题,请参阅 here .支持这一点非常简单。欢迎拉取请求!

作为变通方法,您可以轻松地做到这一点:

In [11]: midx = pd.MultiIndex.from_product([list(range(3)),['a','b','c'],pd.date_range('20130101',periods=3)],names=['numbers','letters','dates'])

In [12]: midx.names.index('letters')
Out[12]: 1

In [13]: midx.names.index('dates')
Out[13]: 2

这是一个完整的例子

In [18]: df = DataFrame(np.random.randn(len(midx),1),index=midx)

In [19]: df
Out[19]:
0
numbers letters dates
0 a 2013-01-01 0.261092
2013-01-02 -1.267770
2013-01-03 0.008230
b 2013-01-01 -1.515866
2013-01-02 0.351942
2013-01-03 -0.245463
c 2013-01-01 -0.253103
2013-01-02 -0.385411
2013-01-03 -1.740821
1 a 2013-01-01 -0.108325
2013-01-02 -0.212350
2013-01-03 0.021097
b 2013-01-01 -1.922214
2013-01-02 -1.769003
2013-01-03 -0.594216
c 2013-01-01 -0.419775
2013-01-02 1.511700
2013-01-03 0.994332
2 a 2013-01-01 -0.020299
2013-01-02 -0.749474
2013-01-03 -1.478558
b 2013-01-01 -1.357671
2013-01-02 0.161185
2013-01-03 -0.658246
c 2013-01-01 -0.564796
2013-01-02 -0.333106
2013-01-03 -2.814611

这是你的关卡名称字典 -> 切片

In [20]: slicers = { 'numbers' : slice(0,1), 'dates' : slice('20130102','20130103') }

这会创建一个空的索引器(选择所有内容)

In [21]: indexer = [ slice(None) ] * len(df.index.levels)

添加切片器

In [22]: for n, idx in slicers.items():
indexer[df.index.names.index(n)] = idx

然后选择(这必须是一个元组,但是我们必须修改它才能开始的列表)

In [23]: df.loc[tuple(indexer),:]
Out[23]:
0
numbers letters dates
0 a 2013-01-02 -1.267770
2013-01-03 0.008230
b 2013-01-02 0.351942
2013-01-03 -0.245463
c 2013-01-02 -0.385411
2013-01-03 -1.740821
1 a 2013-01-02 -0.212350
2013-01-03 0.021097
b 2013-01-02 -1.769003
2013-01-03 -0.594216
c 2013-01-02 1.511700
2013-01-03 0.994332

关于python - 用于级别名称的 Pandas 多索引切片,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24126542/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com