gpt4 book ai didi

python - 拆分非常大的 Pandas 数据框,替代 Numpy array_split

转载 作者:太空宇宙 更新时间:2023-11-04 02:07:09 27 4
gpt4 key购买 nike

关于使用 Numpy array_split 方法的行数限制有什么想法吗?

我有一个超过 600 万行的 dataframe,我想将它分成 20 个左右的 block 。

我的尝试遵循以下描述: Split a large pandas dataframe

使用 Numpy 和 array_split 函数,但是作为一个非常大的 dataframe 它会永远持续下去。

我的 dataframe 是 df,它包含 8 列和 660 万行。

df_split = np.array_split(df,20)

关于拆分它的替代方法有什么想法吗?另外,也欢迎提高数据帧性能的提示。

最佳答案

也许这可以通过将数据帧分成 block 来解决您的问题,就像这个例子一样:

import numpy as np
import pandas as pds

df = pds.DataFrame(np.random.rand(14,4), columns=['a', 'b', 'c', 'd'])

def chunker(seq, size):
return (seq[pos:pos + size] for pos in range(0, len(seq), size))

for i in chunker(df,5):
df_split = np.array_split(i, 20)
print(df_split)

关于python - 拆分非常大的 Pandas 数据框,替代 Numpy array_split,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54420256/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com