gpt4 book ai didi

python - 读取大文件并制作字典

转载 作者:太空狗 更新时间:2023-10-29 20:47:49 25 4
gpt4 key购买 nike

我有一个大文件,我需要读入它并从中制作字典。我希望这尽可能快。但是我在 python 中的代码太慢了。这是显示问题的最小示例。

先做一些假数据

paste <(seq 20000000) <(seq 2 20000001)  > largefile.txt

现在这里有一段最小的 python 代码,用于读取它并制作字典。

import sys
from collections import defaultdict
fin = open(sys.argv[1])

dict = defaultdict(list)

for line in fin:
parts = line.split()
dict[parts[0]].append(parts[1])

时间:

time ./read.py largefile.txt
real 0m55.746s

但是它不是 I/O 绑定(bind):

time cut -f1 largefile.txt > /dev/null    
real 0m1.702s

如果我注释掉 dict 行,它需要 9 秒。似乎几乎所有的时间都花在了dict[parts[0]].append(parts[1])上。

有什么办法可以加快速度吗?如果这会产生很大的不同,我不介意使用 cython 甚至 C。或者 Pandas 可以帮忙吗?

这是一个大小为 10000000 行的文件的配置文件输出。

python -m cProfile read.py test.data         20000009 function calls in 42.494 seconds

Ordered by: standard name

ncalls tottime percall cumtime percall filename:lineno(function)
1 0.000 0.000 0.000 0.000 bisect.py:1(<module>)
1 0.000 0.000 0.001 0.001 collections.py:1(<module>)
1 0.000 0.000 0.000 0.000 collections.py:25(OrderedDict)
1 0.000 0.000 0.000 0.000 collections.py:386(Counter)
1 0.000 0.000 0.000 0.000 heapq.py:31(<module>)
1 0.000 0.000 0.000 0.000 keyword.py:11(<module>)
1 30.727 30.727 42.494 42.494 read.py:2(<module>)
10000000 4.855 0.000 4.855 0.000 {method 'append' of 'list' objects}
1 0.000 0.000 0.000 0.000 {method 'disable' of '_lsprof.Profiler' objects}
10000000 6.912 0.000 6.912 0.000 {method 'split of 'str' objects}
1 0.000 0.000 0.000 0.000 {open}

更新。我们可以假设 parts[1] 是一个整数,而 parts[0] 是一个固定长度的短字符串。

我的假数据不是很好,因为每个键只能得到一个值。这是一个更好的版本。

perl -E 'say int rand 1e7, $", int rand 1e4 for 1 .. 1e7' > largefile.txt

我要做的唯一操作是查询一个键以返回与其关联的值列表。

最佳答案

如果你想要你在评论中说的东西,那么你可以在 pandas 中轻松做到:假设您有一个布局相同但条目重复的文件,因为在您的示例中您将所有重复项添加到列表中:

1 1
2 2
1 3
3 4
1 5
5 6

然后您可以读取和操作数据:

In [1]: df = pd.read_table('largefile.txt', header=None, index_col=0)
In [2]: df.loc[2]
Out[2]:
1 2
Name: 2, dtype: int64

In [3]: df.loc[1]
Out[3]:
1
0
1 1
1 3
1 5

Pandas 将所有内容存储在索引的 DataFrames 和 Series 对象中,所以不要太在意输出,第一列是索引,第二列是重要的列,它会为您提供所需的数字。

不过,您可以使用 pandas 做更多事情...例如,您可以按文件中的第一列进行分组并执行聚合:

In [64]: df = pd.read_table('largefile.txt', header=None).groupby(0)
In [65]: df.sum()
Out[65]:
1
0
1 9
2 2
3 4
5 6
In [66]: df.mean()
Out[66]:
1
0
1 3
2 2
3 4
5 6
In [67]: df[0].count()
Out[67]:
0
1 3
2 1
3 1
5 1
dtype: int64

我知道这不是如何加快字典速度的答案,但根据您在评论中提到的内容,这可能是另一种解决方案。

编辑 - 添加时间

与最快的字典解决方案和将数据加载到 pandas DataFrame 相比:

测试字典.py

import sys
d = {}
with open(sys.argv[1]) as fin:
for line in fin:
parts = line.split(None, 1)
d[parts[0]] = d.get(parts[0], []) + [parts[1]]

测试 Pandas .py

import sys
import pandas as pd
df = pd.read_table(sys.argv[1], header=None, index_col=0)

在 linux 机器上计时:

$ time python test_dict.py largefile.txt
real 1m13.794s
user 1m10.148s
sys 0m3.075s

$ time python test_pandas.py largefile.txt
real 0m10.937s
user 0m9.819s
sys 0m0.504s

编辑新示例文件

In [1]: import pandas as pd
In [2]: df = pd.read_table('largefile.txt', header=None,
sep=' ', index_col=0).sort_index()
In [3]: df.index
Out[3]: Int64Index([0, 1, 1, ..., 9999998, 9999999, 9999999], dtype=int64)
In [4]: df[1][0]
Out[4]: 6301
In [5]: df[1][1].values
Out[5]: array([8936, 5983])

关于python - 读取大文件并制作字典,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18086424/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com