gpt4 book ai didi

python - 为什么 Pandas Panel 的轴顺序困惑?

转载 作者:行者123 更新时间:2023-12-01 04:33:39 27 4
gpt4 key购买 nike

在 Pandas 面板中,轴的顺序对我来说似乎真的很困惑。为什么会这样?

这就是我的意思:

In [120]: import pandas as pd

In [121]: import numpy as np

In [122]: pnl = pd.Panel(np.random.randn(33, 55, 77))

In [123]: pnl.shape
Out[123]: (33, 55, 77)

In [124]: pnl[0].shape
Out[124]: (55, 77)

In [125]: pnl[0][0].shape
Out[125]: (55,)

因此,它从轴 0、1、2 的形状 (33, 55, 77) 开始。伟大的。如果我用 pnl[0] 去掉索引,它会去掉第一个轴(长度 33)并留下形状 (55, 77)。还是很棒的。但是,当我使用 pnl[0][0] 取消另一个索引时,它不会取消前两个轴(长度 33, 55)并留下形状 (77,) 作为我有理由期待。没有。它决定,这一次,它将取消 last 轴而不是 first 轴,并留下形状 (55,)。哈?!?!为什么这么乱?有人可以向我解释一下这背后的设计逻辑吗?

PS。我真的很想使用面板,但现在由于这个轴问题我没有使用它。有时它会使代码不必要地困惑。

更新:

先生。 F 在下面给出了一个答案,基本上建议一致使用 pnl.ix[...] 而不是使用 pnl[...]。所以,我尝试了一下。然而,我仍然遇到了非常奇怪/令人困惑的行为。

这是一个示例,使用上面定义的相同 pnl 对象:

In [220]: pnl.shape
Out[220]: (33, 55, 77)

In [221]: pnl.ix[:, 0, 0].shape
Out[221]: (33,)

In [222]: pnl.ix[0, :, 0].shape
Out[222]: (55,)

In [223]: pnl.ix[0, 0, :].shape
Out[223]: (77,)

In [224]: pnl.ix[:, :, 0].shape
Out[224]: (55, 33)

In [225]: pnl.ix[:, 0, :].shape
Out[225]: (77, 33)

In [226]: pnl.ix[0, :, :].shape
Out[226]: (55, 77)

当我去掉 2 个轴并只留下 1 个轴(上面的命令 221-223)时,一切看起来都很棒。但是,当我去掉 1 个轴以留下 2 个轴(上面的命令 224-226)时,生成的形状再次变得无意义。很难理解并习惯生成的形状如何神奇地交换轴顺序,但只是有时! (具体来说,命令 226 的结果形状 (55, 77) 符合我的预期。但是,在命令 224 中,我期望结果形状 (33, 55) 而不是 (55, 33);在命令 225 中,我期望结果形状结果形状 (33, 77) 而不是 (77, 33)。)

最佳答案

问题在于 item-getter 语法(使用方括号 [] 获取维度)不是您想要的那种东西。您想要的是确保您按照指定的维度子索引到数据中。

为此,您可以使用ix:

 pnl.ix[0, 0].shape
(77,)

通过查看您尝试过的每件事的类型,您可以对此有所了解:

In [71]: type(pnl.ix[0, 0])
Out[71]: pandas.core.series.Series

In [72]: type(pnl.ix[0])
Out[72]: pandas.core.frame.DataFrame

In [73]: type(pnl[0])
Out[73]: pandas.core.frame.DataFrame

特别是最后两个正在查看相同的子数据帧,但请考虑之间的区别:

(pnl[0])[0]
# Or, (pnl.ix[0])[0]

pnl.ix[0, 0] 
# Or, (pnl.ix[0]).ix[0]

在第一种情况下,您会说“嘿,继续并完全执行操作 'pnl[0]' 并返回任何内容,然后之后 继续并再次获取第 0 个元素”。

由于pnl[0]是一个DataFrame,那么额外的[0] item-get操作将与df[0]相同code> 对于任何旧的 DataFrame,它将尝试提取该列(如果存在)。列维度将是生成的 DataFrame 的第一个维度,这就是为什么它的长度为 55,而不是行长度为 77。

要点是,在 Python 中,foo[x] 只是表示“使用 调用 foo 的特殊 __getitem__ 方法>x 作为参数”,仅此而已。如果与 DataFrame 一样,它有一个特殊的约定(例如引用一个),该约定与您在数学符号中可能期望的不同(在这种情况下,它将引用 中的一个项目)第一个轴,无论形状或结构如何),这只是一个实现细节。

例如,使用纯 NumPy 数组,重复的项目获取会执行您所期望的操作:

In [90]: pnl.values[0][0].shape
Out[90]: (77,)

这并不意味着这是“正确”的做法或任何事情。这只是恰好符合数学线性代数某些约定的一种方式。由于 DataFrame 寻求表示关系数据模型而不是纯粹的多维数组,因此没有理由期望 Pandas 必须在这种行为中模拟 NumPy。

添加了超过 2 个维度

对于超过 2 维的情况,与原始 3-D 面板中的布局方式相比,这些切片操作代表了数据的隐式转置。所以Pandas必须做一些事情来解决子选择数据的布局,而且似乎在这样做时,Pandas只是没有实现切片方法以保证子选择数据的从左到右的顺序轴被保留。

因此,当数据按 block 布局时,它似乎独立于其从父面板数据存储的内容来确定新的主(索引)轴。

例如,我创建了一个具有相同形状的随机数据集,我看到:

In [22]: pnl.ix[:, 0, :]._data
Out[22]:
BlockManager
Items: Int64Index([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32],
dtype='int64')
Axis 1: Int64Index([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67,
68, 69, 70, 71, 72, 73, 74, 75, 76],
dtype='int64')
FloatBlock: slice(0, 33, 1), 33 x 77, dtype: float64

特别注意最后一行,它表示它确实知道它是一个 33 x 77 的 block 。然而,当我们查看该 block 的 DataFrame 表示时:

In [23]: pnl.ix[:, 0, :].shape
Out[23]: (77, 33)

所以你说得很对,Pandas 重新确定轴顺序的这种任意且未记录的过程是有问题的。这个例子应该被正确地归档为一个错误,要么是因为轴顺序没有保留,要么是因为用于确定将生成哪种顺序的任何条件都没有记录。 Pandas 团队应该提供其中之一。

关于python - 为什么 Pandas Panel 的轴顺序困惑?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32028995/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com