- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我需要优化我的应用程序的 RAM 使用率。
请省去那些告诉我在编写 Python 代码时不应该关心内存的讲座。我有内存问题,因为我使用非常大的默认字典(是的,我也想快点)。我目前的内存消耗是 350MB 并且还在增长。我已经无法使用共享主机,如果我的 Apache 打开更多进程,内存就会翻倍和三倍……而且很昂贵。
我已经完成了广泛的分析并且我确切地知道我的问题出在哪里。
我有几个带有 Unicode 键的大型(> 100K 个条目)词典。字典从 140 字节开始并且增长很快,但更大的问题是键。 Python 优化内存中的字符串(或者我读过的),以便查找可以是 ID 比较(“实习”它们)。不确定 unicode 字符串也是如此(我无法“实习”它们)。
字典中存储的对象是元组列表(an_object, an int, an int)。
my_big_dict[some_unicode_string].append((my_object, an_int, another_int))
我已经发现拆分成多个字典是值得的,因为元组占用大量空间...
我发现我可以通过在将字符串用作键之前对字符串进行哈希处理来节省 RAM!但遗憾的是,我在 32 位系统上遇到了生日冲突。 (附带问题:是否有可以在 32 位系统上使用的 64 位 key 字典?)
Linux(生产)和 Windows 上的 Python 2.6.5。关于优化字典/列表/元组的内存使用的任何提示?我什至想到了使用 C——我不在乎这一小段代码是否丑陋。它只是一个单一的位置。
提前致谢!
最佳答案
我建议如下:将所有值存储在数据库中,并在内存中保留一个字典,其中字符串哈希作为键。如果发生冲突,则从数据库中获取值,否则(绝大多数情况)使用字典。实际上,它将是一个巨大的缓存。
Python 中字典的一个问题是它们占用大量空间:即使是 int-int 字典在 32 位系统上每个键值对也使用 45-80 字节。同时,array.array('i')
每一对整数仅使用 8 个字节,通过一些簿记,可以合理地实现基于数组的快速 int → int 字典。
一旦你有一个内存高效的 int-int 字典实现,将你的 string → (object, int, int) 字典分成三个字典并使用散列而不是完整的字符串。你会得到一个 int → object 和两个 int → int 字典。如下模拟 int → object 字典:保留对象列表并将对象的索引存储为 int → int 字典的值。
我确实意识到获取基于数组的字典涉及大量编码。我遇到了与您类似的问题,并且我已经实现了一个相当快、非常节省内存的通用散列整数字典。 Here's my code (BSD 许可证)。它是基于数组的(每对 8 个字节),它负责 key 散列和冲突检查,它在写入期间保持数组(实际上是几个较小的数组)的顺序,并在读取时进行二进制搜索。您的代码被简化为:
dictionary = HashIntDict(checking = HashIntDict.CHK_SHOUTING)
# ...
database.store(k, v)
try:
dictionary[k] = v
except CollisionError:
pass
# ...
try:
v = dictionary[k]
except CollisionError:
v = database.fetch(k)
checking
参数指定发生冲突时发生的情况:CHK_SHOUTING
在读取和写入时引发 CollisionError
,CHK_DELETING
在读取时返回 None
,在写入时保持沉默,CHK_IGNORING
不进行碰撞检查。
下面简单介绍一下我的实现,欢迎指点优化!顶级数据结构是数组的常规字典。每个数组最多包含 2^16 = 65536
个整数对(2^32
的平方根)。键 k
和相应的值 v
都存储在第 k/65536
数组中。数组按需初始化并按键保持排序。二进制搜索在每次读取和写入时执行。碰撞检查是一个选项。如果启用,覆盖现有键的尝试将从字典中删除键和关联值,将键添加到一组冲突键中,并(再次,可选)引发异常。
关于内存优化的 Python 技巧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3021264/
我是新手。查看 Google 新闻...上下滚动页面时请注意左侧导航栏。 看看它是如何滚动一点,然后在它消失之前粘在页面顶部的? 关于如何做到这一点有什么想法吗? jQuery 和 CSS 可以复制吗
技巧 1:在 Web 服务器上缓存常用数据 技巧 2:在 Application 或 Session 对象中缓存常用数据 技巧 3:在 Web 服务器磁盘上缓存数据和 HTML 技巧 4:避免
我在 excel 中有一个电子表格,其中包含以下行: COLUMN Value1.Value2.Value3 Value4.Value5.Value6 Value7.Value8.Val
GNU Makefile 中是否有任何技巧来获取规则的所有依赖项? 例子: rule1: dep1_1 dep1_2 dep1_3 rule2: dep2_1 dep2_2 rule1 dump_
人们使用什么来追踪内存泄漏?我已经通过代码检查设法解决了一些问题,但我不知道下一步该做什么/当我的程序变大时我将如何管理问题。我知道我在泄漏什么类型的对象,但我不知道是什么让它保持活力。 在 Wind
有什么好的方法可以将“xlSum”、“xlAverage”和“xlCount”等字符串转换为它们在 Microsoft.Office.Interop.Excel.XlConsolidationFunc
我们都见过这个: javascript:document.body.contentEditable='true'; document.designMode='on';无效 0 但我的问题是,这实际上是
我的应用程序将输出一个图形,其布局由用户定义。自定义布局类应该实现我定义的接口(interface)。我应该怎么做?有一个特殊的文件夹,我可以在其中查找布局类?用户是否将类名作为参数传递给应用? 如有
我在弄清楚如何在 Javascript 中自引用表行时遇到了一些麻烦。 这是简化的代码: $( "#listitems tbody" ).append( "" + "" + id.va
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this q
我正在将代码库从一种编程风格转移到另一种编程风格。 我们有一个名为 Operand 的类型,定义如下: class Operand {...}; 然后我们有 class OperandFactory
我使用以下缩略图类在我的内容包装器中显示 4x3 缩略图: .thumbnail { float:left; width:300px; height:200px; ma
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我认为这是不可能的,但我想在放弃之前问问你。 我想要类似 constexpr 增量的东西。 #include constexpr int inc() { static int inc = 0;
是否有任何适合 C++ 新手的技术和描述的好列表。我在想一个描述 RAII、RVO、左值的列表……这适用于目前不了解这些技术或来自不适用这些技术的其他语言的新手。 最好是短小精悍的:-) 最佳答案 是
我有一个二进制字符串 '01110000',我想在不编写 forloop 的情况下返回前面的前导零数。有谁知道如何做到这一点?如果字符串立即以“1”开头,最好也返回 0 最佳答案 如果您真的确定它是一
我需要优化我的应用程序的 RAM 使用率。 请省去那些告诉我在编写 Python 代码时不应该关心内存的讲座。我有内存问题,因为我使用非常大的默认字典(是的,我也想快点)。我目前的内存消耗是 350M
有时,当我看到一个我喜欢的网站或来自受人尊敬的人的网站时,我会查看源代码并尝试理解它们(就像我们所有人一样)。 关于 Jeremy Keiths他使用以下代码的网站: [role="navigatio
这是我怎样设置 Git 来管理我的家目录的方法。 我有好几台电脑。一台笔记本电脑用于工作,一台工作站放在家里,一台树莓派(或四台),一台 Pocket CHIP,一台 运行
shell 技巧 表变量 HBase 0.95 版本增加了为表提供 jruby 风格的面向对象引用的 shell 命令。以前,作用于表的所有 shell 命令都具有程序风格,该风格始终将表的名称作
我是一名优秀的程序员,十分优秀!