gpt4 book ai didi

Python:即时处理大型文档的行

转载 作者:行者123 更新时间:2023-11-28 22:28:01 25 4
gpt4 key购买 nike

我有一个看起来有点像这样的文档:

key1 value_1_1 value_1_2 value_1_3 etc
key2 value_2_1 value_2_2 value_2_3 etc
key3 value_3_1 value_3_2 value_3_3 etc
etc

其中每个 key 是一个字符串,每个 value 是一个 float ,全部由空格分隔。每行都有数百个与之关联的值,并且有数十万行。每行都需要以特定方式处理,但因为我的程序只需要一小部分行的信息,所以立即处理每一行似乎是在浪费大量时间。目前,我只有每个未处理行的列表,并维护一个包含每个 key 的单独列表。当我需要访问一行时,我将使用 key 列表来查找我需要的行的索引,然后在行列表中处理该索引处的行。我的程序可能会多次调用查找同一行,这将导致一遍又一遍地冗余处理同一行,但似乎仍然比从一开始就处理每一行要好。

我的问题是,是否有更有效的方法来完成我正在做的事情?

(如果我需要做出任何澄清,请告诉我)

谢谢!

最佳答案

首先,我会将您的行存储在 dict 中。这可能会使基于键的查找更快。制作这个字典可以像 d = dict(line.split(' ', 1) for line in file_obj) 一样简单。例如,如果按键具有固定宽度,您可以通过切割线条来进一步加快速度。

接下来,如果行处理的计算量很大,您可以缓冲结果。我通过子类化 dict 解决了这个问题:

class BufferedDict(dict):
def __init__(self, file_obj):
self.file_dict = dict(line.split(' ', 1) for line in file_obj)

def __getitem__(self, key):
if key not in self:
self[key] = process_line(self.file_dict[key])
return super(BufferedDict, self).__getitem__(key)

def process_line(line):
"""Your computationally heavy line processing function"""

这样,如果您调用 my_buffered_dict[key],只有在处理版本不可用时才会处理该行。

关于Python:即时处理大型文档的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43820434/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com