gpt4 book ai didi

python - Pandas - 将一个大的 DataFrame 分成几个小的 DataFrame 并通过一个函数运行每个 DataFrame

转载 作者:行者123 更新时间:2023-11-28 17:25:24 26 4
gpt4 key购买 nike

我有一个包含大约 60000 个数据的庞大数据集。我会首先使用一些标准对整个数据集进行分组,接下来我要做的是将整个数据集分成标准内的许多小数据集,并自动对每个小数据集运行一个函数以获取参数对于每个小数据集。我不知道该怎么做。是否有任何代码可以实现?这是我的

Date         name    number
20100101 John 1
20100102 Kate 3
20100102 Kate 2
20100103 John 3
20100104 John 1

我想把它分成两个小的

Date         name    number
20100101 John 1
20100103 John 3
20100104 John 1

Date name number
20100102 Kate 3
20100102 Kate 2

最佳答案

我认为比使用子集过滤原始数据集更有效的方法是 groupby(),作为演示:

for _, g in df.groupby('name'):
print(g)

# Date name number
#0 20100101 John 1
#3 20100103 John 3
#4 20100104 John 1
# Date name number
#1 20100102 Kate 3
#2 20100102 Kate 2

因此,要获得小数据框的列表,您可以执行[g for _, g in df.groupby('name')]

为了扩展这个答案,我们可以更清楚地看到 df.groupby() 返回的内容如下:

for k, g in df.groupby('name'):
print(k)
print(g)

# John
# Date name number
# 0 20100101 John 1
# 3 20100103 John 3
# 4 20100104 John 1
# Kate
# Date name number
# 1 20100102 Kate 3
# 2 20100102 Kate 2

对于 groupby() 返回的每个元素,它包含一个键和一个带有 name 的数据框,该数据框具有唯一的键值。在上面的解决方案中,我们不需要 key ,所以我们可以指定一个位置持有者并丢弃它。

关于python - Pandas - 将一个大的 DataFrame 分成几个小的 DataFrame 并通过一个函数运行每个 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39422106/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com