gpt4 book ai didi

python-3.x - 按时间戳分组单个 CSV 文件 - Pandas

转载 作者:行者123 更新时间:2023-12-01 02:02:47 25 4
gpt4 key购买 nike

我有一个几乎无穷无尽的水平 csv,其中变量分布在标题中,并且我有许多重复的时间戳,这导致了这样的场景:

+------------+------------+------------+------------+
| Timestamp | Variable1 | Variable2 | .... |
+------------+------------+------------+------------+
| 2017/02/12 | 20 | | |
| 2017/02/13 | 20 | | |
| 2017/02/14 | 30 | | |
| 2017/02/12 | | 5 | |
| 2017/02/13 | | 2 | |
| 2017/02/14 | | 10 | |
| ... | | | |
+------------+------------+------------+------------+

我试图通过时间戳连接以获得这样的结果:

+------------+------------+------------+------------+
| Timestamp | Variable1 | Variable2 | .... |
+------------+------------+------------+------------+
| 2017/02/12 | 20 | 5 | |
| 2017/02/13 | 20 | 2 | |
| 2017/02/14 | 30 | 10 | |
+------------+------------+------------+------------+

我是 pandas 的新手,但我觉得这可以通过多个数据框轻松完成,但我对将单个数据框分组有一点疑问。谁能帮帮我?非常感谢!

最佳答案

您可以按时间戳分组并组合值

df.groupby('Timestamp')['Variable1', 'Variable2'].apply(lambda x: x.sum()).reset_index()

你得到

    Timestamp   Variable1   Variable2
0 2017/02/12 20 5
1 2017/02/13 20 2
2 2017/02/14 30 10

编辑:感谢@piRSquared 更通用

df.set_index('Timestamp').groupby(level=0).sum().reset_index‌​()

关于python-3.x - 按时间戳分组单个 CSV 文件 - Pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43531329/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com