- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 python 3.4(64 位 Windows)中跨大型(30 GB)mmap
ped 文件运行正则表达式搜索时遇到“问题”。
基本上,我观察到的是在 匹配命中时,内存占用量大约上升到匹配之间的字节数。它实际上并没有崩溃,但占用空间大到足以减慢其他进程的速度(因为映射文件的大小)。
我的正则表达式来自一个字节串,它非常具体并且所有量词都是有界的。我的表达式中没有 *
或 +
,所以这不是可怕的正则表达式溢出的情况(最坏的情况是匹配长度为 2200 字节,大多数匹配更小).我将匹配的字符串存储在一个列表中,但通常最多只有几千个匹配项,所以占用所有空间的不是匹配项。
我目前假设正则表达式引擎(sre 对吗?)将所有匹配项之间的字符串保存在内存中,这对于小数据集来说很好,但对我来说并非如此。所以我的问题真的是:这个假设是否正确,如果是这样,我可以改变这种行为(最好不要重新编译库!)
代码基本上是这样的:
pattern = re.compile(b"PATTERN.{1,20}", re.DOTALL)
f = open("file.bin", "rb")
mem = mmap.map(f.fileno(), 0, access=mmap.ACCESS_READ)
results = []
for match in pattern.finditer(mem):
results.append(match.group(0))
f.close()
最佳答案
我不确定是否有办法解决这个问题。您正在以磁盘可以提供的速度读取大量数据。除非你有大量的内存。如果您在某个时候不这样做,那么您将用完 RAM 必须释放一些内存。大多数操作系统将使用 LRU(最近最少使用)算法来决定将什么踢出 RAM。由于您正在尽可能快地访问数据,因此内存映射文件使用的大部分内存将具有最近的访问时间。因此这意味着它们是被踢出 RAM 的“糟糕”候选人(至少根据操作系统而言)。
基本上,当可用内存用完时,操作系统对于从 RAM 中踢出什么的选择很糟糕。
但是,您更清楚可以释放哪些内存。因此,您可以分块扫描文件。当您不再需要文件的较早部分时,这将明确让操作系统释放该内存。当然,这会在 block 的边界产生问题。
作为提高程序内存性能的示例:
import re
import mmap
import os
filename = "some_file.txt"
file_size = os.stat(filename).st_size
chunk_size = 2**32
# chunk_size = 50 # smaller chunk_size I used for testing
regex = re.compile(rb"PATTERN\d{1,20}\n")
max_length = len("PATTERN") + 20 + len("\n")
matches = []
f = open(filename, "rb")
for i in range(0, file_size, chunk_size - max_length + 1):
# compute length of data to search over
length = chunk_size if i + chunk_size <= file_size else file_size - i
m = mmap.mmap(f.fileno(), length=length, offset=i, access=mmap.ACCESS_READ)
# f.seek(i) # used for testing
# m = f.read(length)
for match in regex.finditer(m):
if not (match.end() == len(m) and len(match.group()) < max_length and length == chunk_size):
# if match ends at end of string
# and not maximum length of regex
# but not also at the end of the file
# THEN there *may* be a cross chunk-boundary match
# THUS, defer match to next loop iteration
matches.append(match.group())
m.close()
f.close()
关于python - 使用 re 和 mmap 时内存泄漏(ish?),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31963124/
我想了解 mmap 的工作原理。mmap 的用户级调用如下所示。 void *mmap(void *addr, size_t len, int prot, int flags, int
我正在做一个Bottle驱动程序,我使用 yield 关键字和 mmap.mmap 对象在输出流中发送多个映射文件,如以下代码所示: for mapping in mappings: yield
我来自 C++/RAII 世界。 所以我对何时以及如何调用 mmap.close() 感到困惑[不是 file.close()]。 或者,根本不调用它?会不会漏气? 至于来自 document 的示例
我正在我的大学上操作系统类(class),我们的任务之一是使用 mmap 实现简单的 malloc。现在我开始工作了,我尝试使用 valgrind 来检测遗留的任何错误。不管是否释放内存,valgri
有谁知道 mmap(2) 和 mmap(3) 的区别是什么?手册第 3 节被描述为“本章描述了除第 2 章中描述的实现系统调用的库函数之外的所有库函数。” mmap(3) 不执行系统调用吗? 阅读这两
我不知道我在理解mmap时错过了哪些知识。我就是想不通。但让我这样问我的问题: 我有很多(例如 3 个)文件 block ,其大小分别为 s1、s2、s3。 s1、s2 和 s3 均小于 Mmap (
在 Linux 下: #free -m total used free shared buffers cachedMem:
我正在尝试将 C 库(beaglebone PRU 驱动程序 prussdrv.c)与 Python 连接。我想要访问的特定函数返回一个 mmap 指针,如下所示: int __prussdrv_me
当我调用mmap时: ptr = mmap(NULL, ...); 并要求系统提供一个缓冲区并将文件映射到其中,然后使用 再次调用 mmap ptr2 = mmap(ptr, ...); 尝试
在 Android 上用 Java 内存映射一个大文件效果很好。但是当映射总数超过 ~1.5GB 时,即使有多个映射调用,它也会失败: mmap failed: ENOMEM (Out of memo
我在具有 64G 内存和大量磁盘空间的 debian-64 上运行一个专门的数据库守护进程。它使用磁盘上的哈希表(mmaped)并通过定期 write() 调用将实际数据写入文件。当进行大量更新时,m
C++代码: #include #include #include #include #include using namespace std; #define FILE_MODE (S_I
我想处理一个由 4Kb block 组成的文件。 随着事情的发生,我将编写更多数据并映射新部分,取消映射我不再需要的部分。 当要映射的文件数据总量约为 4Gb 时,仅 4Kb 的 map() 是否太小
大家好,我正在尝试将下面的代码转换为 python(访问树莓派 1Mhz 计时器),我不知道什么时候要映射对象,我们需要 + TIMER_OFFSET (timer = (long long int
我所做的是一个垃圾收集器,使用mmap(2)为用户空间分配空间,这就要求最初分配时可以从任何地方开始,但是后面的分配地址应该是与之前的分配连续,如下所示: page_size = getpagesiz
众所周知,最重要的 mmap() 功能是在许多进程之间共享文件映射。但众所周知,每个进程都有自己的地址空间。 问题是内存映射文件(更具体地说,它的数据)真正保存在哪里,以及进程如何访问这些内存? 我的
什么限制了内存映射文件的大小?我知道它不能大于未分配地址空间的最大连续块,并且应该有足够的可用磁盘空间。但是还有其他限制吗? 最佳答案 您太保守了:内存映射文件可能大于地址空间。 查看 内存映射文件的
如果我使用 mmap 来编写 uint32_t,我会遇到大端/小端约定的问题吗?特别是,如果我在 big-endian 机器上写入一些数据 mmap,当我尝试在 little-endian 机器上读取
所以,对于我最后一年的项目,我使用 Video4Linux2 从相机中提取 YUV420 图像,将它们解析为 x264(本地使用这些图像),然后通过 Live555 将编码流发送到 RTP/RTCP通
是 mmap在它们的效果中调用原子? 也就是说,是否由 mmap 进行了映射更改以原子方式出现在访问受影响区域的其他线程中? 作为试金石,请考虑您执行 mmap 的情况。在一个全为零的文件中(来自线程
我是一名优秀的程序员,十分优秀!