gpt4 book ai didi

python - Pandas LOC 选择值背后的逻辑

转载 作者:太空宇宙 更新时间:2023-11-03 13:57:15 27 4
gpt4 key购买 nike

我正在尝试学习和理解 pandas LOC 背后的逻辑,但我无法对以下问题做出解释。如果我想用 LOC 对数据帧进行切片,我可以按以下方式进行

dates=pd.date_range('20130101',periods=6)
df=pd.DataFrame(np.random.rand(6,4),index=dates,columns=list('ABCD'))

print(df.loc['20130102':'20130104',['A','B']]) (*)

一切顺利。我不明白的是,如果在 LOC 的第二部分我可以输入列标题列表 ['A','B'] 为什么我不能对行做同样的事情?即以下内容不起作用

print(df.loc[['20130102','20130104'],['A','B']])

背后的逻辑是什么?我给 LOC 两个行索引和两个列标题,但它不起作用。对于列部分,列表很好,对于行部分,它不是。而且,在 LOC 的第一部分(见 *),可以使用“:”访问行的索引,即从 index1 到 index2 = 'index1':'index2' 但我不能在 LOC 函数的第 2 部分中做同样的事情:这是行不通的:

print(df.loc['20130102':'20130104',['A':'C']])

我很乐意理解为什么显示的这两行代码不起作用。

谢谢。

最佳答案

您需要将列表的值转换为datetime,因为DatetimeIndex,这意味着需要相同类型的列表值和DataFrame的索引/列的值,否则KeyError:

print(df.loc[pd.to_datetime(['20130102','20130104']),['A','B']])
A B
2013-01-02 0.719469 0.423106
2013-01-04 0.438572 0.059678

按索引/列的第一个和最后一个值选择

转换为 datetimes 不是必需的,因为 partial string indexing .

对于按范围选择,仅删除用于选择列的列表 []:

print(df.loc['20130102':'20130104','A':'C'])
A B C
2013-01-02 0.719469 0.423106 0.980764
2013-01-03 0.480932 0.392118 0.343178
2013-01-04 0.438572 0.059678 0.398044

选择日期时间的类似解决方案:

print(df.loc['2013-01-02':'2013-01-04','A':'C'])
A B C
2013-01-02 0.719469 0.423106 0.980764
2013-01-03 0.480932 0.392118 0.343178
2013-01-04 0.438572 0.059678 0.398044

组合:

#select betwen start/end datetime and only columns A,C
print(df.loc['20130102':'20130104',['A','C']])
A C
2013-01-02 0.719469 0.980764
2013-01-03 0.480932 0.343178
2013-01-04 0.438572 0.398044

#select only 20130102, 20130104 index and columns between A and C
print(df.loc[pd.to_datetime(['20130102','20130104']),'A':'C'])
A B C
2013-01-02 0.719469 0.423106 0.980764
2013-01-04 0.438572 0.059678 0.398044

关于python - Pandas LOC 选择值背后的逻辑,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53903889/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com