gpt4 book ai didi

python - 为什么 Pandas 默认遍历 DataFrame 列?

转载 作者:太空狗 更新时间:2023-10-29 20:38:43 24 4
gpt4 key购买 nike

试图理解 Pandas 某些功能背后的设计原理。

如果我有一个 3560 行 18 列的 DataFrame,那么

len(frame)

是 3560,但是

len([a for a in frame])

是 18 岁。

也许这对来自 R 的人来说很自然;对我来说,它感觉不是很“Pythonic”。有没有介绍 Pandas 的底层设计原理?

最佳答案

DataFrame 主要是一种基于列的数据结构。在底层,DataFrame 中的数据存储在 block 中。粗略地说,每个数据类型都有一个 block 。每一列都有一个数据类型。因此,可以通过从单个 block 中选择适当的列来访问列。相比之下,选择单个行需要从每个 block 中选择适当的行,然后形成一个新的 Series,并将每个 block 的行中的数据复制到 Series 中。因此,遍历 DataFrame 的行(在幕后)不像遍历列那样自然。

如果您需要遍历行,您仍然可以调用 df.iterrows()。您应该尽可能避免使用 df.iterrows,原因与它不自然的原因相同——它需要复制,这使得该过程比遍历列慢。

关于python - 为什么 Pandas 默认遍历 DataFrame 列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25918149/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com