memory-management - 覆盖内存中的数据-6ren

memory-management - 覆盖内存中的数据

转载作者：行者123 更新时间：2023-12-04 05:46:00

24

4

我用 Ocaml 编写了一个密码管理器。为了使其尽可能安全，我想以可以覆盖的方式将字符串(加密 key )存储在内存中。由于 Ocaml 是按值传递的，并且有一个垃圾收集器，这已被证明是困难的。我可以加密所有缓冲区和变量，但我仍然需要存储一个“ session key ”来执行此操作。为了防止自动 key 搜索程序检测到这种情况或将其放入交换中，它使用随机增量从缓冲区中的一堆随机数据组装而成。所以真的，我只需要一个单一的变量，在它被传递到 Nocrypto 库之前，它可以被组装的 key 覆盖几秒钟......引用是否适用于此？

根据这个cornell "Refs and Arrays" page , refs 是可变的，其工作方式类似于 C 中的指针。话虽如此，我还找到了讨论 Ocaml refs 的堆栈溢出答案。，其中答案提到“它们就像指向新分配内存的指针”。这是否意味着每次，它只是在内存中分配一个新的东西，而不是实际改变内存中的东西？如果是这样，你就不能真正“覆盖”一个引用。

我遇到的其他可能的解决方案是 Bigarrays 和“自定义块”。我不完全确定“自定义块”是否实际上是在垃圾收集范围之外分配的。他们似乎习惯于访问外部 C 代码。它们是否被垃圾收集器复制？它们会被“覆盖”吗？还有这种“不透明字节”和内存中不透明对象的想法。我很难想象这一切是如何组合在一起的。关于堆栈溢出内存中自定义块的有用但(对我而言)令人困惑的讨论在这里:Are custom blocks ever copied in memory?回答说他们可以四处移动。即便如此，它们也能被覆盖吗？

最后一个可能的解决方案是使用 Cstruct 来存储它，就像 Nocrypto 库似乎做的那样。他们在这个 github 问题中讨论了它:Secret material erasure提问者说:

"Granted, most key material is Cstruct.t, which is a Bigarray.Array1.t, which is allocated outside of the GC heap"

这甚至正确吗？如果是这样，我似乎无法找到实际执行此操作的源文件。总的来说，我对 Ocaml 和函数式编程很陌生。如果你好奇，我的程序位于 github 上: ocaml-pass

最佳答案

TL; 博士;

您不得在 OCaml 堆中存储任何 secret 信息。因此，您绝不能将您的 secret 复制到任何 OCaml 堆分配的值中，因此，字节、字符串或数组都不能使用，即使是临时的。

OCaml 内存模型介绍

OCaml 值统一表示为标记的机器字。字的最低有效位用作标记，区分指针(标记=0)和立即值(标记=1)。因此，值始终具有固定大小，并且是指针或立即数。

立即数将其数据存储在字的最高有效部分，即 32 位系统中的 31 位和 64 位系统中的 63 位。指针将它们的数据存储在块中，这些块位于所谓的 OCaml 堆中。 OCaml 堆是一组由垃圾收集器 (GC) 管理的块。块是带有标题前缀的数据块。标题指定了 GC 使用的数据大小和一些其他元信息。块可以包含 OCaml 值(指针或立即值)或不透明数据。

总结一下。所有 OCaml 值都表示为机器字，它们要么直接在字中存储数据，要么是指向堆分配块的指针。每个指针指向一个且仅一个块。多个指针可能指向同一个块。这些值在物理上被认为是相等的。有些块没有被任何指针指向。此类块称为死块，并由 GC 回收。

OCaml 垃圾收集器简介

GC 通过分配、移动和释放块来管理块。 GC 本身使用一个 arena，它要么从 C 内存分配器 (malloc) 获得，要么通过 memmap 系统调用直接从内核获得(取决于特定的系统和运行时)。

GC 是分代的，这意味着值首先分配在称为次要堆的堆的特殊区域中。次堆是固定大小的连续内存区域，在运行时用三个指针表示:指针 beg指向次堆开始的指针 end到次堆的末尾，以及指针 cur到次要堆的空闲区域的开始。分配块时，cur增加了块的大小。然后用数据初始化块。当次要堆中没有更多可用空间时(即 end - cur 小于所需的块大小)，则触发次要 GC 循环。 GC 分析存储在 Minor Heap 中的所有块，并复制由至少一个指向 Major Heap 的指针引用的所有块。之后，cur指针设置为 beg .

在主堆中，一个块在称为压缩的过程中也可能被复制多次。压缩器可能会尝试重新排列其领域中的块，以实现更紧凑的堆表示。

安全后果

由于 OCaml GC 是移动 GC，它可以任意复制堆分配的数据。虽说是搬家，其实也只是抄。即，当一个块从次堆移动到主堆时，它实际上只是位复制，因此被复制。次堆中的块幻影可能存在任意时间，直到它被某个新分配的值覆盖。在压缩期间移动对象时，它也会被复制，并且在此过程中可能会或可能不会被覆盖。而且，当然，不用说，一旦一个块死了，它仍然可以在堆中存活任意时间，直到被 GC 重用。

这一切都意味着，如果一个 secret 最终出现在 OCaml 堆中，它将变得疯狂，因为 GC 可以以任意且相当不可预测的方式多次复制它。因此，我们只能将 secret 存储在即时值或不受 GC 控制的区域中。如前所述，所有 OCaml 值都是指针，总是指向 OCaml 堆中的一个块。一个块可以直接包含数据，也可以包含一个指向内存堆外的指针本身。所谓的自定义块，可能会也可能不会将它们的信息存储在 OCaml 堆中，它取决于每个自定义块的特定表示。例如，Bigarray 库提供自定义块，将其有效负载存储在 OCaml 堆之外。因此 Bigarray 是一个自定义块，它有两个字段:指针和大小。它是一个不透明块，即 GC 永远不会将这两个值视为 OCaml 值，并且永远不会跟随大小和指针。指针指向的数据位于OCaml堆之外，或者由malloc分配。或通过 memmap (实际上，它可以是任意整数，甚至指向堆栈或静态数据，这并不重要，只要我们将 bigarray 视为 ptr,len 对即可)。

这一切使 Bigarrays 成为存储 secret 的理想选择。我们可以肯定的是，它们不会被 GC 移动，一旦它们被释放，我们可以覆盖它们以防止信息泄漏。

进一步的考虑

我们应该小心，永远不要让 secret 从我们安全的地方复制到 OCaml 堆中。这意味着，即使我们的主存储是一个安全的 bigarray，如果我们将其内容复制到 OCaml 字符串，信息仍然会泄漏。因此，如果我们先将信息读入 OCaml 字符串，然后将其复制到 bigarray 中，信息仍然会泄漏。因此，任何使用 OCaml 堆分配值的接口(interface)都是不安全的，不应使用。例如，我们不能使用 OCaml channel 来读取或写入 secret (我们应该依赖 Unix 模块提供的内存映射或无缓冲 IO)。再说一次，每当您收到 string来自 Bigarray 的数据类型，你会复制你的数据，以及所有的后果。

关于memory-management - 覆盖内存中的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47707142/

24

4

0

文章推荐： spring-boot - 如何使响应式 Web 客户端遵循 3XX 重定向？

文章推荐： assembly - uint64_t 与 int64_t 的 sqrt

文章推荐： c - 指向 C 中的 int 指针数组的指针

文章推荐： visual-studio - Visual Studio 2015 : No 64-bit command prompt

Java 内存/gc 问题(JRE 内存、堆空间不足和 gc 已满)
我在具有 2CPU 和 3.75GB 内存 (https://aws.amazon.com/ec2/instance-types/) 的 c3.large Amazon EC2 ubuntu 机器上运
linux-kernel - 如何在 Linux 中写入 VGA 内存(不是视频缓冲区，内存)以在屏幕上显示 Logo ？
我想通过用户空间中的mmap-ing并将地址发送到内核空间从用户空间写入VGA内存(视频内存，而不是缓冲区)，我将使用pfn remap将这些mmap-ed地址映射到vga内存(我将通过 lspci
Julia 内存
在 Mathematica 中，如果你想让一个函数记住它的值，它在语法上是很轻松的。例如，这是标准示例 - 斐波那契: fib[1] = 1 fib[2] = 1 fib[n_]:= fib[n] =
在编译时分配的c++内存
我读到动态内存是在运行时在堆上分配的，而静态内存是在编译时在堆栈上分配的，因为编译器知道在编译时必须分配多少内存。考虑以下代码: int n; cin>>n; int a[n]; 如果仅在运行期间读
Python 在内存中保存数据？ (内存)
我是 Python 的新手，但我之前还不知道这一点。我在 for 循环中有一个基本程序，它从站点请求数据并将其保存到文本文件但是当我检查我的任务管理器时，我发现内存使用量只增加了？长时间运行时，这对我
用于查找表的 CUDA 内存
我正在设计一组数学函数并在 CPU 和 GPU(使用 CUDA)版本中实现它们。其中一些函数基于查找表。大多数表占用 4KB，其中一些占用更多。基于查找表的函数接受一个输入，选择查找表的一两个条目，
无法访问第一个地址以外的 malloc 内存
读入一个文件，内存被动态分配给一个字符串，文件内容将被放置在这里。这是在函数内部完成的，字符串作为 char **str 传递。使用 gdb 我发现在行 **(str+i) = fgetc(aFil
JSP session 内存？
我需要证实一个理论。我正在学习 JSP/Java。在查看了一个现有的应用程序(我没有写)之后，我注意到一些我认为导致我们的性能问题的东西。或者至少是其中的一部分。它是这样工作的: 1)用户打开搜索
R:环境的缓存/内存
n我想使用memoization缓存某些昂贵操作的结果，这样就不会一遍又一遍地计算它们。两个memoise和 R.cache适合我的需要。但是，我发现缓存在调用之间并不可靠。这是一个演示我看到的问
javascript - 为什么给变量赋值给自己内存=内存？
我目前正在分析一些 javascript shell 代码。这是该脚本中的一行: function having() { memory = memory; setTimeout("F0
elasticsearch - 内存 Elasticsearch
我有一种情况，我想一次查询数据库，然后再将整个数据缓存在内存中。我得到了内存中 Elasticsearch 的建议，我用谷歌搜索了它是什么，以及如何在自己的 spring boot 应用程序中实现它
Haskell、内存、堆栈溢出
我正在研究 Project Euler (http://projecteuler.net/problem=14) 的第 14 题。我正在尝试使用内存功能，以便将给定数字的序列长度保存为部分结果。我正在
java - 内存/注意力游戏问题
所以，我一直在做 Java 内存/注意力游戏作业。我还没有达到我想要的程度，它只完成了一半，但我确实让 GUI 大部分工作了......直到我尝试向我的框架添加单选按钮。我认为问题可能是因为我将 JF
Flask/Jinja 内存
我一直在尝试使用 Flask-Cache 的 memoize 功能来仅返回 statusTS() 的缓存结果，除非在另一个请求中满足特定条件，然后删除缓存。但它并没有被删除，并且 Jinja 模板仍
php - =& 运算符，内存
我对如何使用 & 运算符来减少内存感到非常困惑。我可以回答下面的问题吗？ clase C{ function B(&$a){ $this->a = &$a; $thi
java - 字符串性能-内存
在编写代码时，我遇到了一个有趣的问题。我有一个 PersonPOJO，其 name 作为其 String 成员之一及其 getter 和 setter class PersonPOJO { priv
java - java中这两个构造函数有什么区别？ (内存)
在此代码中 public class Base { int length, breadth, height; Base(int l, int b, int h) { l
c - 内存 - 自然地址边界
Definition Structure padding is the process of aligning data members of the structure in accordance
没有闭包作用域的 Javascript 内存
在 JavaScript Ninja 的 secret 中，作者提出了以下方案，用于在没有闭包的情况下内存函数结果。他们通过利用函数是对象这一事实并在函数上定义一个属性来存储过去调用函数的结果来实现这
使用的 Java 内存
我正在尝试找出 map 消耗的 RAM 量。所以，我做了以下事情；- Map cr = crPair.collectAsMap(); // 200+ entries System.out.printl

首页

博学

6Ren·AI

商城

memory-management - 覆盖内存中的数据