python - 为什么protobuf的内存比python中的普通dict+list小？-6ren

python - 为什么protobuf的内存比python中的普通dict+list小？

转载作者：行者123 更新时间：2023-12-03 18:33:34

25

4

我在嵌套的字典/列表中有大量的原始类型结构。结构相当复杂，并不重要。
如果我用 python 的内置类型( dict/list/float/int/str )表示它，则需要 1.1 GB，但如果我将它存储在 protobuf 中并将其加载到内存中它要小得多。总共约 250 MB。
我想知道这怎么可能。与某些外部库相比，python 中的内置类型效率低吗？
编辑:结构是从 json 文件加载的。所以对象之间没有内部引用

最佳答案

“简单”python 对象，例如 int或 float ，需要比 protobuf 使用的 C 对应项更多的内存.
让我们来个list Python 整数作为示例与整数数组进行比较，例如在 array.array 中(即 array.array('i', ...) )。array.array 的分析很简单:从 array.arrays 中丢弃一些开销-object，每个元素只需要 4 个字节(C 整数的大小)。
对于整数列表，情况完全不同:

该列表不包含整数对象本身，而是指向对象的指针(8 64 位可执行文件的附加字节)

即使是一个小的非零整数也至少需要 28字节(见 import sys; sys.getsizeof(1) 返回 28):引用计数需要 8 个字节，保存指向整数函数表的指针需要 8 个字节，整数值的大小需要 8 个字节(Python 的整数可以远大于2^32)，并且至少有 4 个字节来保存整数值本身。

还有一个overhead for memory management of 4.5 bytes .

这意味着与可能的 4 个字节(如果我们使用 long long int，即 64 位整数，则为 8 个字节)相比，每个 Python 整数的成本高达 40.5 个字节。
与 doubles 的数组相比，具有 Python 浮点数的列表的情况类似。 (即 array.array('d',...) )，每个元素只需要大约 8 个字节。但是对于列表，我们有:

该列表不包含浮点对象本身，而是指向对象的指针(8 64 位可执行文件的附加字节)

float 对象需要 24字节(见 import sys; sys.getsizeof(1.0) 返回 24):引用计数需要 8 个字节，保存指向浮点函数表的指针需要 8 个字节，保存 double 需要 8 个字节。 -值(value)本身。

因为 24 是 8 的倍数，所以内存管理的开销“仅”约为 0.5 个字节。

这意味着 Python 浮点对象为 32.5 字节，而 C-double 为 8 字节。 protobuf在内部使用与 array.array 相同的数据表示形式因此需要更少的内存(如您所见，大约少 4-5 倍)。 numpy.array是数据类型的另一个示例，它保存原始 C 值，因此比列表需要更少的内存。

如果不需要在字典中搜索，那么将键值对保存在列表中将比在字典中需要更少的内存，因为不必维护用于搜索的结构(这会增加一些内存成本) ) - 这也是导致 protobuf 内存占用更小的另一件事-数据。

要回答您的其他问题:Python- dict 没有内置模块, 什么 array.array是 Python- list ，所以我借此机会厚颜无耻地为我的一个图书馆插了一个广告: cykhash .
来自 cykhash 的集合和 map need less than 25% Python的- dict/ set内存，但速度差不多。

关于python - 为什么protobuf的内存比python中的普通dict+list小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63439648/

25

4

0

文章推荐： php - 如何使用 Laravel 项目配置 SQLite 数据库？

文章推荐： nhibernate - Fluent NHibernate 和 .NET 4 的奇怪覆盖问题

文章推荐： stdout - 如何在 Raku 中截获 Proc::Async 的无缓冲输出？

文章推荐： SwiftUI 将数据传递到 ViewModel

python - 通过 dict of dict of dict 计算值
我有以下数据: foo red test foo red test foo red test2 foo blue test bar red test bar blue test bar red tes
python - 将 2d dict 的 dict 内的值除以与该键匹配的另一个 dicts 值
这些字典很长，我需要循环遍历多个键值。举一个简短的例子。从长远来看，我需要将所有数字除以适当的计数以获得平均值。 counts = {'A':10, 'B':14} totals = {'A':{'a
python - 如何在 dict 创建期间从另一个 dict 构建 Python dict 值？
我想构建一个字典，其中一个值是从另一个值构建的。我想写 d = { 'a':1, 'b':self['a']+1 } 但它没有按预期工作: >>> {'a':1, 'b':self[
python - 当 dict 用作另一个 dict 的键时，TypeError : unhashable type: 'dict' ,
这个问题在这里已经有了答案: TypeError: unhashable type: 'dict' (4 个回答) 关闭5年前。我有这段代码: for element in json[referen
Python:对这个字典进行排序(dict in dict)
d = { 'a':{'k':1, 'b':'whatever'}, 'b':{'k':2, 'b':'sort by k'} } 想在 python 中按 k 降序对这个字典进行排序。有点棘手，
python - 如何将 defaultdicts [of defaultdicts] 的 defaultdict 转换为 dicts [of dicts] 的 dict？
使用 this answer ，我创建了 defaultdict 的 defaultdict。现在，我想把那个嵌套很深的 dict 对象变回一个普通的 python dict。 from collec
python - Pandas:将数据框列转换为 dict，其中 col 标题作为 dict 键，col 值作为 dict 值
我有一个如下所示的数据框: NAME ID 155 ARBITRARY_A 697381 208 ARBITRARY_B 691820 2
Python 类型列表[Dict] 与列表[dict]
在添加类型提示 python 函数中哪个是首选？ from typing import List, Dict def example_1() -> List[Dict]: pass def e
python - 字典结构(dict -> dict)与比较中的列表
有这个字典 -> 字典 -> 列表结构想要比较这种类型的 2 个结构。 one = {"1iG5NDGVre": {"118": ["test1", "test2", "test3", "tcp",
python - 递归搜索和修改复杂对象(dict ofists of dicts)
我有一个复杂的对象。目前它是字典列表的字典。但将来可能会发生变化，同时仍然只使用列表和字典。我想查找所有类型为“datetime”的列表元素或字典值并将它们更改为字符串。递归搜索似乎有效，但无法
python - Django-不支持的操作数类型/: 'dict' and 'dict'
我不知道如何在 html 中显示“净利润”的结果，这是 net_profit/sales 的结果。我不想把这个除法公式直接放在html中，因为除此之外还有很多其他复杂的计算。那么如何把这个除法结果同
列表的 Python dict 到单项匹配索引的 dict
我找不到与此用例类似的问题。我有一个包含列表的字典，我想从每个列表中提取一个特定的索引，并将其分配到一个具有相同键的新字典中。 dict1 = { 'key1': ['a', 'b', 'c'],
python - 为什么 dict(dict) 得到相同的字典？
这听起来可能很愚蠢。当我在 python 中重写 dict 时: class idict(dict): def __init__ (self, *args, **kwargs):
python - 将 dict 的元组键转换为新的 dict
我有一个像这样的 dict: { ('America', 25, 'm', 'IT'): 10000, ('America', 22, 'm', 'IT'): 8999, ('
键上的 Python dict of dict 正则表达式
我仍在努力学习 Python 中的字典。是否可以使用正则表达式或 startswith 函数在字典中引用键？我有以下格式的字典，我正在尝试对“AreaOfInterest1”、“AreaOfInte
python - 如何将 dict 功能重新分配回 'dict' ？
这个问题在这里已经有了答案: How to restore a builtin that I overwrote by accident? (3 个答案) 关闭 5 年前。我不小心为关键字 dic
Python:如何遍历一个列表[Dict{List[Dict{}]}]
我只是想知道是否有一种简单的方法可以做到这一点。我有一个从文件解析的特定结构，输出是一个字典列表的一个列表。目前，我只有一些看起来像这样的代码: for i in xrange(len(data)):
Python:dict within dict，通配符第一个键
我想在字典中匹配字典的数据。这: print(a["myval"]["val1"]) 努力获得所需的输出。但是我想“通配” myval 条目。同时输出 myval2 的结果 print(a['*'][
dictionary - React JS setState({dict : dict })
我想知道这是否是用两个字典更新状态的正确解决方案 var PopulationCityView = React.createClass({ getInitialState: function(
python - CSV 到 dict，dict 找不到该项目
我正在将 CSV 转换为 dict，所有值均已正确加载，但有一个问题。 CSV: Testing testing\nwe are into testing mode My\nServer Thi

首页

博学

6Ren·AI

商城

python - 为什么protobuf的内存比python中的普通dict+list小？