python - 为什么将 pickle 文件加载到内存中会占用更多空间？-6ren

python - 为什么将 pickle 文件加载到内存中会占用更多空间？

转载作者：太空宇宙更新时间：2023-11-04 02:09:31

24

4

我有一个文件夹包含 7603 个由 pickle.dump 保存的文件。平均文件大小为 6.5MB，因此文件占用的总磁盘空间约为 48GB。

每个文件都是通过pickle一个list对象得到的，list的结构为

[A * 50] 
 A = [str, int, [92 floats], B * 3] 
                             B = [C * about 6] 
                                  C = [str, int, [92 floats]]

我使用的电脑内存是128GB。

但是，我无法通过此脚本将文件夹中的所有文件加载到内存中:

import pickle
import multiprocessing as mp
import sys
from os.path import join
from os import listdir
import os

def one_loader(the_arg):
    with open(the_arg, 'rb') as source:
        temp_fp = pickle.load(source)
    the_hash = the_arg.split('/')[-1]
    os.system('top -bn 1 | grep buff >> memory_log')
    return (the_hash, temp_fp)

def process_parallel(the_func, the_args):
    pool = mp.Pool(25)
    result = dict(pool.map(the_func, the_args))
    pool.close()
    return result

node_list = sys.argv[-1]
db_path =  db_path
the_hashes = listdir(db_path)
the_files = [join(db_path, item) for item in the_hashes]
fp_dict = {}
fp_dict = process_parallel(one_loader, the_files)

我已经绘制了内存使用情况，正如您从脚本中看到的那样，内存使用情况是

我对这个情节有几个困惑:

4000 个文件占用 25GB 磁盘空间，但为什么它们占用超过 100GB 内存？
在内存使用率突然下降后，我没有收到任何错误，而且我可以使用 top 命令看到脚本仍在运行。但我完全不知道系统在做什么，其余的内存在哪里。

最佳答案

那是因为序列化数据占用的空间比运行时管理对象所需的内存空间要少。

字符串示例:

import pickle

with open("foo","wb") as f:
    pickle.dump("toto",f)

foo 在磁盘上是 14 个字节(包括 pickle header 或其他)但在内存中它要大得多:

>>> import sys
>>> sys.getsizeof('toto')
53

对于字典来说更糟，因为哈希表(和其他东西):

import pickle,os,sys

d = {"foo":"bar"}
with open("foo","wb") as f:
    pickle.dump(d,f)
print(os.path.getsize("foo"))
print(sys.getsizeof(d))

结果:

27
288

所以比例为 1 比 10。

关于python - 为什么将 pickle 文件加载到内存中会占用更多空间？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53941830/

24

4

0

文章推荐： html - 两个 Bootstrap 列，其中一个具有对 Angular 线边缘

文章推荐： javascript - 需要在 Node js 应用程序中进行路由帮助

文章推荐： c - #define的逻辑(microchip xc8编译器)

java - 为什么 SQL 中的 CHAR(1) 占用 1 个字节，而 java 中的 char 占用 2 个字节？
我正在阅读 SQL/92(我是新手)，它经历了不同的数据类型。其中之一是CHAR，我当然知道它与java中的String非常相似，而不是java中的char。但我们假设它是 CHAR(1)。只有一个字
Mysqld 占用 232% CPU
我的 mysqld 进程消耗了 232% 的 CPU，并且有 14000 多个连接 (我对这件事有点陌生，但关注 Stack Overflow 寻求帮助)。顶部: PID USER P
Tomcat 占用 100% CPU
Tomcat 服务器占用 100% 的 CPU，但仅在 PRD。我们无法在其他环境中重现这一点。进行线程转储后，我们发现有一些线程处于等待/可运行状态，但无法找到我们如何找到根本原因。你能帮忙吗？
ios - 检查场景中的位置是否被 Sprite 占用
我正在使用 Xcode、SpriteKit 和 Swift 构建我的第一款 iPhone 游戏。我对这些技术不熟悉，但我熟悉一般的编程概念。这是我想用英语做的事情。我想让圆圈随机出现在屏幕上，然后开
Java Socket 占用 100% CPU
我的套接字消耗了 100% 的计算机 CPU。有 150 个客户端每 30 秒异步向服务器发送消息。有谁知道如何解决这个问题？下面是我的 ServerSocket 类 public class Ser
java - ElasticSearch 占用 100% CPU
一段时间后(有时几分钟，有时几天)，我的应用开始消耗 100% 的 CPU。正如我从 VisualVM 看到的那样，它总是发生在 org.elasticsearch.common.netty.chan
swift - insertSubVIew 占用 "long"时间
在我的容器 Controller 中，用户可以平移 View 以切换到不同的 View 。当平移手势开始时，它会将新 View Controller 的 View 添加到 View 中:view.in
python - 将两列中的数据合并为一列，除非第二列已被 pandas 占用
假设我在数据框中有两列，其中一列不完整。 df = pd.DataFrame({'a': [1, 2, 3, 4], 'b':[5, '', 6, '']}) df Out: a b
ubuntu - pytesseract 占用 CPU 太高
在Ubuntu 16.04 LTS中，pyteserract脚本吃得太高，导致系统间歇性重启。 top命令输出为 top - 21:23:31 up 27 min, 4 users, lo
hadoop - reducer 占用 mapper 核心
我在具有 88 个内核和 60 个 reducer 的 hadoop 集群上运行 mapreduce 作业。由于某种原因，它只使用了 79 个集群核心。开始时它运行 79 个映射器，但当完成一半拆分时
c# - SelectQuery 占用 100% CPU
我正在对机器上的所有用户进行查询，当它执行时，它会占用 100% 的 CPU 并锁定系统。我已经等了 5 分钟，但什么也没有发生。在任务管理器中，wmiprvse.exe 占用了所有 CPU。当我终
java - BufferedInputStream available() 占用 CPU
我正在从套接字(通过 TCP 协议(protocol))读取消息，但我注意到 CPU 花费大量时间来调用 BufferedInputStream 的 available() 方法。这是我的代码:
c# - 'Lock' 占用 CPU 时间吗？
我有 6 个线程。其中一个线程进入某个范围并打开“锁定”和所有其他线程线程正在等待并希望进入相同的范围。现在，其他线程是否会获得 CPU 时间？其他线程是否在线程调度中？我知道所有其他线程都处于等待
java - Activity 占用 140mb 内存
我正在尝试创建一个社交媒体应用程序。但它需要大约 300mb 内存。所以我的主页上有 5 个包含帖子的 fragment 。总体内存使用量为 250-300mb 然后为了测试，我禁用了这些 fragm
Flutter 展开/占用 TextFormField 以填充屏幕的其余部分
我有一个带有一些 TextFormField 的表单，我想扩展最后一个 TextFormField 以占据屏幕的其余部分。最后一个 TextFormField 可以有多行文本。我没能做到这一点，并尝
xcode - Xcode/Simulator 占用 15gb 空间是否正常？
我收到磁盘几乎已满的警告，所以我运行 DaisyDisk .. 显然 Xcode 占用了 15GB 的空间: http://imgur.com/a/cTIZZ iOS 设备支持为 12.3 GB: h
swift - 为什么 bool 占用 7 个字节的内存？
我正在使用 Xcode Playground 研究 Swift 内存布局，我创建了一个带有 bool、double 和 int32 的结构，如下所示。基于这种结构，MemoryLayout 的打印结果
ios - UITextView 导致 CPU 占用 100%
一旦执行“self.navigationController pushviewcontroller:vc animated:YES”，我的 CPU 就会达到 100%。我在 Stack Overflo
javascript - 生成随机唯一数据花费的时间太长，占用 100% 的 CPU
警告:CPU 使用率达到 100%，请小心。 Link to the jsFiddle 编写此脚本是为了设计动态蛇梯板。每次刷新页面时，都会创建一个新板。大多数时候所有的背景图像都不会出现，CPU 使
MYSQL 占用 100% 的 CPU。查询速度慢
我不知道为什么，但是MYSQL给CPU带来了很大的负载。我必须每秒多次更新数据库，并且用户群正在不断增长。一开始还好，但是现在 CPU 负载每天都在增加这是日志中的慢速查询: *Query_tim

首页

博学

6Ren·AI

商城

python - 为什么将 pickle 文件加载到内存中会占用更多空间？