gpt4 book ai didi

python - Pandas - 为什么分块 'on' 的 read_csv 比没有分块的小文件更快?

转载 作者:行者123 更新时间:2023-11-28 21:09:43 26 4
gpt4 key购买 nike

我正在将一个有点大的表 (90*85000) 的字符串、整数和缺失值读入 pandas。该文件很容易融入我的内存。我还在内存充足的服务器上运行脚本,观察到相同的行为。

我假设批量读取文件会更快或与分块读取一样快。但是,使用“chunksize=any_number”时,pandas 读取文件的速度几乎快了 300 倍(11.138 秒对 0.039 秒)。

有人可以解释这种行为吗?

我的代码:

startTime = datetime.now()
df=pd.read_csv(dataFile,delim_whitespace=True)
print datetime.now() - startTime

startTime = datetime.now()
df=pd.read_csv(dataFile,delim_whitespace=True, chunksize=10)
print datetime.now() - startTime

最佳答案

因为在第二部分中您创建了一个pandas.io.parsers.TextFileReader 对象(迭代器)...

演示:

In [17]: df = pd.DataFrame(np.random.randint(0, 10, size=(20, 3)), columns=list('abc'))

In [18]: df.to_csv('d:/temp/test.csv')

In [19]: reader = pd.read_csv('d:/temp/test.csv', chunksize=10, index_col=0)

In [20]: print(reader)
<pandas.io.parsers.TextFileReader object at 0x000000000827CB70>

如何使用这个迭代器

In [21]: for df in reader:
....: print(df)
....:
a b c
0 0 5 6
1 6 0 6
2 2 5 0
3 3 6 2
4 5 7 2
5 5 2 9
6 0 0 1
7 4 8 3
8 1 8 0
9 0 8 8
a b c
10 7 9 1
11 6 7 9
12 7 3 2
13 6 4 4
14 7 4 1
15 2 6 5
16 5 2 2
17 9 9 7
18 4 9 0
19 0 1 9

在代码的第一部分,您已经在一个 DF(数据帧)中读取了整个 CSV 文件。显然它需要更长的时间,因为迭代器对象(上面演示中的 reader)在您开始迭代它之前不会从 CSV 文件中读取数据

示例:让我们创建一个 1M 行的 DF 并比较 pd.read_csv(...)pd.read_csv(..., chunksize=1000) 的时间>:

In [24]: df = pd.DataFrame(np.random.randint(0, 10, size=(10**6, 3)), columns=list('abc'))

In [25]: df.shape
Out[25]: (1000000, 3)

In [26]: df.to_csv('d:/temp/test.csv')

In [27]: %timeit pd.read_csv('d:/temp/test.csv', index_col=0)
1 loop, best of 3: 1.21 s per loop

In [28]: %timeit pd.read_csv('d:/temp/test.csv', index_col=0, chunksize=1000)
100 loops, best of 3: 4.42 ms per loop

关于python - Pandas - 为什么分块 'on' 的 read_csv 比没有分块的小文件更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37808550/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com