gpt4 book ai didi

python - 使用chr()时的python内存分配

转载 作者:行者123 更新时间:2023-12-01 05:04:22 25 4
gpt4 key购买 nike

我是python的新手,我想要一个包含2个元素的列表,第一个是0到20亿之间的整数,另一个是0到10之间的数字。我有很多这样的列表(十亿)。

假设我使用chr()函数为列表添加第二个参数。例如:

first_number = 123456678
second_number = chr(1)
mylist = [first_number,second_number]


在这种情况下,python如何分配内存?它会假设第二个参数是一个char并给出它(1个字节+开销)还是会假设第二个参数是一个字符串?如果它认为它是一个字符串,那么有什么方法可以将某些内容定义和强制为char或使之具有更高的内存效率?

编辑->添加了有关为何需要此数据结构的更多信息

以下是有关我想做什么的更多信息:

我有一个稀疏的加权图,具有20亿条边和2500万个节点。为了表示该图,我试图创建一个字典(因为我需要快速查找),其中的键是节点(作为整数)。这些节点由0到20亿之间的数字表示(此数字与边数之间没有关系)。边缘表示如下:对于每个节点(或字典中的键),我保留一个列表列表。该列表列表的每个元素都是我上面已经解释的列表。第一个表示另一个节点,第二个自变量表示键和第一个自变量之间的边的权重。例如,对于包含5个节点的图,如果我有类似

 {1: [[2, 1], [3, 1], [4, 2], [5, 1]], 2: [[5, 1]], 3: [[5, 2]], 4: [[6, 1]], 5: [[6, 1]]}


这意味着节点1有4条边:一条以权重1到达节点2,一条以权重1到达节点3,一条以权重2到达节点4,等等。

我一直在寻找是否可以通过减小edge的第二个参数来提高内存效率。

最佳答案

使用单个字符串将占用与一个小整数几乎相同的内存量,因为CPython只会创建每个值的一个对象,并在每次需要该字符串或该值的整数时使用该对象。使用字符串会占用更多的空间,但这并不重要。

但是让我们回答您真正的问题,如何减少Python程序使用的内存量?首先,我将计算您要创建的对象将使用多少内存。我使用的是Python 2.7的64位版本,但我的其他64位版本的Python应该与此相似。

首先,您只有一个dict对象,但是它有2500万个节点。对于此大小的命令,Python将使用2 ^ 26个哈希存储桶,每个存储桶为24个字节。 dict本身约为1.5 GB。

该字典将具有2500万个键,所有键均为int对象,每个键均为24个字节。对于代表节点的所有整数,总计约570 MB。它还将具有2500万个list对象作为值。每个列表将占用72个字节,加上列表中每个元素8个字节。这些列表将总共有20亿个元素,因此它们总共将占用16.6 GB。

这20亿个列表元素中的每一个都将引用另一个长度为两个元素的list对象。高达164 GB。两个元素列表中的每一个都将引用两个不同的int对象。现在好消息是,虽然看起来总共有大约40亿个整数对象,但实际上实际上只有20亿个不同的整数对象。对于第二个元素中使用的每个小整数值,只会创建一个对象。因此,第一个元素所引用的整数对象使用的总内存为44.7 GB。

计划实现该数据结构时,至少需要227 GB的内存。重新查看该列表,我将解释如何将其减少您需要的内存,以使其更实用。

代表两个元素边缘列表中的节点的int对象使用的44.7 GB内存是最容易处理的。由于只有2500万个节点,因此您不需要20亿个不同的对象,每个节点值只需要一个对象。另外,由于您已经将节点值用作键,因此可以重复使用这些对象。这样就达到了44.7 GB,并且根据您构建数据结构的方式,可能不会花费很多精力来确保仅创建冗余节点值对象。这样一来,总容量将降至183 GB。

接下来,我们解决所有两个元素边缘list对象所需的164 GB。您可以共享碰巧具有相同节点值和权重的列表对象,但可以做得更好。通过展平列表列表,消除所有边缘列表。您必须对算术元素进行一些算术访问,但是除非您的系统具有大量内存,否则必须做出让步。用作dict值的list对象的长度必须加倍,将其总大小从16.1 GB增加到31.5 GB。这样,将列表平坦化就可以节省149 GB的净资金,使总容量减少到更合理的33.5 GB。

比这更复杂。一种可能性是使用数组。与列表不同,它们的元素不引用其他对象,该值存储在每个元素中。 array.array对象的长度为56个字节,再加上元素的大小(在这种情况下为32位整数)。总共可增加16.2 GB,可节省15.3 GB。现在总大小仅为18.3 GB。

通过利用您的权重是适合单字节字符的小整数这一事实,可以压缩更多的空间。为每个节点创建两个array.array对象,一个为节点值创建32位整数,另一个为权重创建8位整数。因为现在有两个数组对象,所以使用tuple对象保存该对。所有这些对象的总大小为13.6 GB。与单个数组相比,这并不是一个很大的节省,但是现在您不需要任何算法即可访问元素,只需切换索引方式即可。总大小为15.66 GB。

最后,我能想到的节省内存的最后一件事就是只有两个array.array对象。然后,dict值成为引用两个tuple对象的int对象。第一个是两个数组的索引,第二个是长度。这种表示方式占用了11.6 GB的内存,又有一个小的净减少,总内存为13.6 GB。

最终的总计13.6 GB应该可以在具有16 GB RAM的机器上工作,而无需进行太多交换,但是它不会为其他任何东西留出太多空间。

关于python - 使用chr()时的python内存分配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25353792/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com