gpt4 book ai didi

Python 脚本在完成很长时间后不会终止

转载 作者:行者123 更新时间:2023-11-28 20:42:43 24 4
gpt4 key购买 nike

我有一个奇怪的问题。我正在加载一个巨大的文件(3.5G)并从中制作字典并进行一些处理。一切都完成后,我的脚本不会立即终止,它会在一段时间后终止。我认为这可能是由于内存释放,还有其他原因吗??我很感激任何意见。我怎样才能让我的脚本运行得更快?

这是相应的代码:

类文件处理器:

    def __init__(self):
self.huge_file_dict = self.upload_huge_file()


def upload_huge_file(self):
d = defaultdict(list)
f= codecs.open('huge_file', 'r', encoding='utf-8').readlines()
for line in f:
l = line.strip()
x,y,z,rb,t = l.split()
d[rb].append((x,y,z,t))
return d

def do_some_processing(self, word):
if word in self.huge_file_dict:
do sth with self.huge_file_dict[word]

最佳答案

我的猜测是你可怕的减速,直到你的程序完成后才恢复,这是由于使用了比你实际拥有的更多的内存,这导致你的操作系统开始将 VM 页面交换进出磁盘。一旦发生足够多的交换,您最终会陷入“交换 hell ”,其中很大一部分内存访问涉及磁盘读取甚至磁盘写入,这需要更多的时间,并且您的系统直到在您最终释放所有内存后几秒钟。

显而易见的解决方案是不要使用太多内存。

tzaman's answer ,避免 readlines(),将消除一些内存。一个 3.5GB 文件中所有行的巨大列表在 Python 3.4 或 2.7 上至少需要 3.5GB(但实际上至少比这多 20%),在 3.0-3.3 上可能是 2 倍或 4 倍。

但是字典会比列表更大,你需要它,对吧?

嗯,不,你可能不知道。将 dict 保存在磁盘上并根据需要获取值可能听起来很慢,但它可能仍然比将其保存在虚拟内存中快得多,如果虚拟内存必须不断地来回交换到磁盘。

您可能需要考虑使用简单的 dbm ,或更强大的键值数据库(谷歌“NoSQL key value”用于某些选项),或 sqlite3数据库,甚至是基于服务器的 SQL 数据库,如 MySQL。

或者,如果您可以将所有内容保存在内存中,但以更紧凑的形式保存,则两全其美。

我注意到在您的示例代码中,您对字典所做的唯一事情就是检查 self.huge_file_dict 中的单词。如果这是真的,那么您可以使用 set 而不是 dict 并且不将所有这些值都保存在内存中。这应该会减少大约 80% 的内存使用量。

如果您经常需要键,但偶尔需要值,您可能需要考虑一个字典,它只是将键映射到索引到您可以根据需要从磁盘读取的内容(例如,具有固定长度字符串的文件,然后你可以 mmap 和切片)。

或者您可以将值保存在 Pandas 框架中,这将比原生 Python 存储更紧凑——可能足以产生差异——并使用字典映射键到索引。

最后,您可以在不实际减少内存量的情况下减少交换量。将一个巨大的排序列表一分为二,而不是访问一个巨大的字典,可能会提供更好的内存局部性,这取决于你的单词模式。

关于Python 脚本在完成很长时间后不会终止,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30083188/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com