gpt4 book ai didi

python - 如何读取并提取并合并多个大尺寸csv(1G~)?

转载 作者:太空宇宙 更新时间:2023-11-03 15:45:14 24 4
gpt4 key购买 nike

我有多个巨大的 csv(1GB~),如下所示

path = 'C:/Users/csvfiles'

样本1.csv

A B C
0 a A
0 c C
1 d D

样本2.csv

A B C
1 e E
0 f G
0 g G

我想得到下面的 df

A B C
1 d D
1 e E

我想为 A 列提取 1。它可能会变得很容易处理(考虑到内存大小)。

在我看来,我应该使用 chunksize 并处理一些提取,然后合并...(以节省内存大小)

这对我来说非常复杂。

我可以问一下如何读取和合并大尺寸的csv吗?(以及如何节省内存)

最佳答案

  • 使用glob抓取文件
  • 使用 pd.concat 将它们放在一起
  • 使用 query 获取列 A1 的位置

代码

pd.concat(
[pd.read_csv(f) for f in glob('csvs/*')]).query('A == 1')

A B C
2 1 d D
0 1 e E

(如果您想跟踪索引第一级中每行的来源)。

pd.concat(
{i: pd.read_csv(f) for i, f in enumerate(glob('csvs/*'))}).query('A == 1')

A B C
0 2 1 d D
1 0 1 e E

关于python - 如何读取并提取并合并多个大尺寸csv(1G~)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41808243/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com