gpt4 book ai didi

python - 为什么读取整个文件占用的 RAM 多于其在磁盘上的大小?

转载 作者:太空宇宙 更新时间:2023-11-03 10:47:47 26 4
gpt4 key购买 nike

警告

不是 this 的副本.我对找出我的内存消耗或问题不感兴趣,因为我已经在下面这样做了。问题是为什么内存消耗是这样的。

此外,即使我确实需要一种方法来分析我的内存,请注意 guppy(上述链接中建议的 Python 内存分析器不支持 Python 3 和替代的 guppy3 不会给出准确的结果,无论结果如何(见下面的实际尺寸):

Partition of a set of 45968 objects. Total size = 5579934 bytes.
Index Count % Size % Cumulative % Kind (class / dict of class)
0 13378 29 1225991 22 1225991 22 str
1 11483 25 843360 15 2069351 37 tuple
2 2974 6 429896 8 2499247 45 types.CodeType

背景

是的,我有这个简单的脚本,我用它来做一些 RAM 消耗测试,通过两种不同的方式读取文件:

  1. 一次读取一个文件一行,处理并丢弃它(通过 generators),这是高效的,推荐用于基本上任何文件大小(尤其是大文件),< strong>按预期工作。

  2. 将整个文件读入内存(我知道不建议这样做,但这只是出于教育目的)。


测试脚本

import os
import psutil
import time


with open('errors.log') as file_handle:
statistics = os.stat('errors.log') # See below for contents of this file
file_size = statistics.st_size / 1024 ** 2

process = psutil.Process(os.getpid())

ram_usage_before = process.memory_info().rss / 1024 ** 2
print(f'File size: {file_size} MB')
print(F'RAM usage before opening the file: {ram_usage_before} MB')

file_handle.read() # loading whole file in memory

ram_usage_after = process.memory_info().rss / 1024 ** 2
print(F'Expected RAM usage after loading the file: {file_size + ram_usage_before} MB')
print(F'Actual RAM usage after loading the file: {ram_usage_after} MB')

# time.sleep(30)

输出

File size: 111.75 MB
RAM usage before opening the file: 8.67578125 MB
Expected RAM usage after loading the file: 120.42578125 MB
Actual RAM usage after loading the file: 343.2109375 MB

我还添加了 30 秒的 sleep 时间,以便在操作系统级别使用 awk 检查,我在其中使用了以下命令:

ps 辅助 | awk '{print $6/1024 "MB\t\t"$11}' |排序-n

产生:

...
343.176 MB python # my script
619.883 MB /Applications/PyCharm.app/Contents/MacOS/pycharm
2277.09 MB com.docker.hyperkit

该文件包含以下行的大约 800K 个副本:

[2019-09-22 16:50:17,236] ERROR in views, line 62: 404 Not Found: The
following URL: http://localhost:5000/favicon.ico was not found on the
server.

是因为 block 大小还是动态分配,内容会以 block 的形式加载,而实际上很多内存未被使用?

最佳答案

当您在 Python 中打开文件时,默认情况下您会以文本模式打开它。这意味着二进制数据是根据操作系统默认值或明确给定的编解码器解码的。

与所有数据一样,文本数据在您的计算机中以字节表示。大多数英文字母表都可以用一个字节表示,例如字母“A”通常被翻译成数字 65,或二进制:01000001。这种编码 (ASCII) 在很多情况下已经足够好了,但是当你想用像罗马尼亚语这样的语言编写文本时,它已经不够用了,因为字符 ăţ等不是 ASCII 的一部分。

有一段时间,人们对每种语言(群体)使用不同的编码,例如Latin-x 编码组 (ISO-8859-x) 用于基于拉丁字母表的语言,以及用于其他(尤其是 CJK)语言的其他编码。

如果您想要表示一些亚洲语言,或者几种不同的语言,您将需要将一个字符编码为多个字节的编码。这可以是固定数字(例如在 UTF-32 和 UTF-16 中)或可变数字,例如当今最常见的“流行”编码 UTF-8。


回到 Python:Python 字符串接口(interface) promise 了许多属性,其中包括复杂度为 O(1) 的随机访问,这意味着您可以非常快速地从非常长的字符串中获取第 1245 个字符。这与紧凑的 UTF-8 编码冲突:因为一个“字符”(实际上:一个 unicode 代码点)有时是一个字节,有时是几个字节长,Python 不能直接跳转到内存地址 start_of_string + length_of_one_character * offset,因为 length_of_one_character 在 UTF-8 中有所不同。因此,Python 需要使用固定字节长度的编码。

出于优化原因,它并不总是使用 UCS-4 (~UTF-32),因为当文本为纯 ASCII 时这会浪费大量空间。相反,Python 会动态选择 Latin-1、UCS-2 或 UCS-4 来在内部存储字符串。


用一个例子把所有的东西放在一起:

假设您要将字符串“soluţie”从一个编码为 UTF-8 的文件中存储到内存中。由于字母ţ需要两个字节来表示,Python选择了UCS-2:

characters | s       | o       | l       | u       | ţ       | i       | e         
utf-8 |0x73 |0x6f |0x6c |0x75 |0xc5 0xa3|0x69 |0x65
ucs-2 |0x00 0x73|0x00 0x6f|0x00 0x6c|0x00 0x75|0x01 0x63|0x00 0x69|0x00 0x65

如您所见,UTF-8(磁盘上的文件)需要 8 个字节,而 UCS-2 需要 14 个字节。

再加上 Python 字符串和 Python 解释器本身的开销,您的计算又变得有意义了。


当您以二进制模式 (open(..., 'rb')) 打开文件时,您不会解码字节,而是按原样获取它们。如果文件中有文本,这是有问题的(因为为了处理数据,你迟早要将它转换为字符串,然后你必须在其中进行解码),但如果它真的是二进制数据,比如作为图像,它很好(而且更好)。


此答案包含简化内容。谨慎使用。

关于python - 为什么读取整个文件占用的 RAM 多于其在磁盘上的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58078941/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com