- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我正在处理一些数据,并将结果存储在三个字典中,并使用 Pickle 将它们保存到磁盘。每个字典有 500-1000MB。
现在我正在加载它们:
import pickle
with open('dict1.txt', "rb") as myFile:
dict1 = pickle.load(myFile)
但是,我已经在加载我得到的第一本字典了:
*** set a breakpoint in malloc_error_break to debug
python(3716,0xa08ed1d4) malloc: *** mach_vm_map(size=1048576) failed (error code=3)
*** error: can't allocate region securely
*** set a breakpoint in malloc_error_break to debug
Traceback (most recent call last):
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/pickle.py", line 858, in load
dispatch[key](self)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/pickle.py", line 1019, in load_empty_dictionary
self.stack.append({})
MemoryError
如何解决这个问题?我的电脑有 16GB 的 RAM,所以我发现加载 800MB 字典崩溃的情况很不寻常。我还发现不寻常的是保存字典时没有问题。
此外,我计划在未来处理更多数据,从而产生更大的字典(磁盘上 3-4GB),因此,如果有任何提高效率的建议,我们将不胜感激。
最佳答案
如果您的字典中的数据是 numpy
数组,则有一些包(例如 joblib
和 klepto
)可以有效地对大型数组进行 pickle ,因为 klepto
和 joblib
都了解如何为 numpy.array
使用最小状态表示。如果您没有 array
数据,我的建议是使用 klepto
将字典条目存储在多个文件(而不是单个文件)或数据库中。
查看我对一个非常相关的问题的回答 https://stackoverflow.com/a/25244747/2379433 ,如果您可以对多个文件而不是单个文件进行 pickle ,希望并行保存/加载您的数据,或者希望轻松尝试存储格式和后端以查看哪种最适合您的情况。另见:https://stackoverflow.com/a/21948720/2379433对于其他潜在的改进,这里也是:https://stackoverflow.com/a/24471659/2379433 .
正如上面的链接所讨论的,您可以使用 klepto
-- 它使您能够使用通用 API 轻松地将字典存储到磁盘或数据库中。 klepto
还允许您选择存储格式(pickle
、json
等)--also HDF5
(或 SQL 数据库)是另一个不错的选择,因为它允许并行访问。 klepto
可以利用专门的 pickle 格式(如 numpy
的)和压缩(如果您关心大小而不是访问数据的速度)。
klepto
让您可以选择使用“all-in-one”文件或“one-entry-per”文件存储字典,还可以利用多处理或多线程——这意味着您可以从后端并行保存和加载字典项目。例如,请参阅上面的链接。
关于python - Python中Pickle的MemoryError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28068872/
我试图在一个非 Django 特定的共享虚拟主机上部署 Django。 Host 提供旧版本的 python 安装,但由于我有 ssh 访问能力,我设法通过在我的主文件夹中本地安装它们来使用我需要的模
我是初学者。我最近看到 Mandelbrot set 太棒了,所以我决定用 python 绘制这个集合。但是有一个问题,当我运行这段代码时出现“内存错误”。 这条语句 num_set = gen_nu
假设以下情况:我得到了一个双模网络的邻接矩阵,其中一个维度代表一些项目(帖子)和每个项目下出现的其他标签。现在我想折叠那个双模式网络以获得一个单模式网络的项目到项目关系,其中每个链接的值代表两个项目的
我正在尝试通过从文件中读取数据来绘制具有多种颜色的热图。我可以很好地生成 2D 和法线热图,但无法像附加图像那样绘制。当使用随机数时,我可以绘制它但是在从文件中读取数据时它显示错误。 上面的热图是用随
我正在尝试从维基百科文本数据中训练word2vec模型,因为我正在使用以下代码。 import logging import os.path import sys import multiproces
处理.xml文件= 1,45 Gb时出现MemoryError错误。我试图在一个较小的文件上运行它,并且它可以工作,因此代码中不应有任何错误。该代码本身意味着打开一个xml文件,在其中做一些事情并将其
当我尝试使用以下代码在大型数据帧上删除重复的时间戳时,出现了 MemoryError。 import dask.dataframe as dd path = f's3://{container_nam
尝试分割非常大的字符串时出现内存错误。 data = load_data(file_name) # loads data string from file splited_data = data.sp
我需要扫描两个大的 txt 文件(都是大约 100GB,10 亿行,几列)并取出某一列(写入新文件)。文件看起来像这样 ID*DATE*provider 1111*201101*1234 1234*2
我在第 3 轮 nfind(while 循环)中执行的代码有什么问题,返回符合 CACHE[sha] = number 的 MemoryError?在系统上有足够的内存,并且在 while 循环的每一
我试图避免在我的 mp3 收藏中重复(非常大)。我想通过检查文件内容来检查重复项,而不是查找相同的文件名。我已经编写了下面的代码来执行此操作,但它会在大约一分钟后抛出 MemoryError。关于如何
我正在尝试编写一个程序来计算给定字符串 s 中字符 'a' 的出现次数,只考虑第一个 字符串的 n 个字符。如果字符串的长度小于数字 n,例如 s = "abca" 和 n = 10,则 s 应该变成
我的环境是 Python 3.6 64 位和 64 位 win 10 16GB 内存。 我有一个形状为 (260923,) 的 ndarray。我想找到大于阈值的所有元素的索引。我正在使用这段代码,但
我遇到了一个奇怪的MemoryError,我不明白它为什么会出现。代码示例: # some setup import numpy as np import pandas as pd import ra
我正在尝试处理一个 3GB 的 XML 文件,并且在读取文件并将一些数据存储在字典中的循环中间出现内存错误。 class Node(object): def __init__(self, os
我正在处理一个包含大数据的项目,在运行我的脚本时经常遇到 MemoryError。它在我的脚本读取的文件列表上包含一个循环,在 3 或 4 个文件之后,出现此错误。 我想写这样的东西: with op
我正在尝试对一堆图像(>40k)执行平均缩放。当我将大小为 (3,256,256) 的图像读入 np 数组时,内存使用率为 %40(60 GB 中,使用 htop 检查)。但是,当我运行 arr.st
我有一个小的 Python (2.7.10) 脚本,您可以在下面看到它。 def numbers_calc(max_num, num_step): """Returns every numbe
我正在编写一个 python 脚本来读取两个 csv 文件。代码片段如下。如果文件包含少量记录(8,000 条),则代码可以完美运行,但是如果文件包含大量记录(120,000 条),我会在线上遇到 M
我有一段 python 代码会在一段时间后生成一个 MemoryError。我知道它会消耗大量内存。因此,我决定将代码放在 try/except block 中,这样框架看起来如下所示: while
我是一名优秀的程序员,十分优秀!