memory - 无 ECC 平台的软件内存位翻转检测-6ren

memory - 无 ECC 平台的软件内存位翻转检测

转载作者：IT王子更新时间：2023-10-28 23:29:23

30

4

大多数可用的桌面(廉价)x86 平台现在仍然不支持 ECC 内存 (Error Checking & Correction)。但内存位翻转错误率仍在增长(not the best SO thread，Large scale CERN 2007 study "Data integrity":“其内存模块的位错误率为 10^-12 ...观察到的错误率为比预期低 4 个数量级”；2009 年 Google 的 "DRAM Errors in the Wild: A Large-Scale Field Study")。对于当前具有数据密集型负载(8 GB/s 读取)的硬件，这意味着可能每分钟(来自 CERN07 的 10^-12 个供应商 BER)或两天一次(10< CERN07 的 sup>-16 BER)。 Google09 表示每 Mbit 最多可以有 25000-75000 位 FIT(每十亿小时的时间故障)，这相当于 8GB RAM 每小时 1-5 位错误(“平均可纠正错误率每年每 GB 2000–6000")。

所以，我想知道，是否可以在系统范围内添加某种软件错误检测(检查用户和内核内存)。例如，为 Linux 内核和/或系统编译器创建一个补丁，为每个内存页面添加一些校验和，并尝试通过定期重新计算校验和来检测静默内存损坏(位翻转)？

例如，我们能否查看所有对内存的写入(来自用户和内核空间)，以区分预期的内存更改和内存中的位翻转？或者我们可以通过一些帮助程序以某种方式检测所有代码吗？

我了解任何类型的软件内存 ECC 都可能会消耗大量性能并且不会捕获所有错误，但我认为尽早检测至少一些内存位翻转是有用的，然后它们将在以后被重用计算或存储到硬盘驱动器。

我也明白更好的数据保护方法是切换到 ECC 硬件，但大多数 PC 仍然是非 ECC。

最佳答案

问题是，与“软件 ECC 对策”相比，ECC 非常便宜。您可以轻松检测他们是否有 ECC 模块并在没有时提示(或打印警告)。

http://www.cyberciti.biz/faq/ecc-memory-modules/

For example, can we see all writes to memory (both from user and kernel space), to distinguish between intended memory changes from in-memory bit flips? Or can we somehow instrument all codes with some helper?

呃，你永远不会“看到”总线上的位翻转。它们实际上是由粒子撞击 RAM 引起的，稍微翻转一下。直到很久以后，您才能注意到您读出的内容与您写入的内容不同。要仅通过总线检测到这一点，您需要一份 all RAM 的副本(即创建一个影子副本)位于您的真实 RAM 中，因此您可以验证每次读取都返回写入该位置的内容。)

try to detect silent memory corruptions (bit-flips) by regular recomputing of checksums?

Redis 专家对用于测试 RAM 是否存在问题的算法写了一篇很好的文章。 http://antirez.com/news/43但这实际上是在寻找 RAM 错误，而不是随机位翻转。

如果“重新计算校验和”仅在您不写入内存时有效。这可能“足够好”，但您需要弄清楚哪些页面没有被写入。

要捕获 100% 的错误，每次写入之前都必须先计算该内存块的校验和，然后将其与记录的校验和进行比较(以确保该 block 在 RAM 中没有降级)。只有这样才能安全地进行写入然后更新校验和。正如你可以想象的那样，它的性能将是可怕的(至少慢 100 倍)。

I understand that any kind of software memory ECC may cost a lot of performance and will not catch all errors, but I think it can be useful to detect at least some memory bit-flips early, before they will be reused in later computations or stored to hard drive.

嗯，有一种简单的方法可以检测 100% 的错误，但会以 50% 的性能为代价:只需一次在 2 个盒子上运行计算(或者在两个不同时间在一个盒子上运行，可能需要进行 RAM 测试)如果您偏执，则介于两者之间。)如果结果不同，则说明您检测到错误。

另见:

https://www.linuxquestions.org/questions/linux-hardware-18/how-to-detect-ecc-memory-errors-under-linux-886011/

关于memory - 无 ECC 平台的软件内存位翻转检测，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23587591/

30

4

0

文章推荐： android - PCM Raw Bytes [] 到 Android 上的音频

文章推荐： android - 可以以编程方式设置 BroadcastReceiver 优先级吗？

文章推荐： android - 如何为三星 Galaxy S4 (1080X1920) 创建 avd

文章推荐： Android DrawerLayout 不显示正确的指示器图标

memory - 在什么情况下我们可以使用Non-shareable device memory，或者Shareable device memory？
在 ARM 中，内存类型指定为: 正常设备强烈有序在Device type里面，好像这个类型也可以区分不可共享的设备内存可共享设备内存不可共享和可共享设备内存有什么区别？我们如何分别使用这
memory - 在什么情况下我们可以使用Non-shareable device memory，或者Shareable device memory？
在 ARM 中，内存类型指定为: 正常设备强烈有序在Device type里面，好像这个类型也可以区分不可共享的设备内存可共享设备内存不可共享和可共享设备内存有什么区别？我们如何分别使用这
memory - spark.python.worker.memory 与 spark.executor.memory 有何关系？
This diagram很清楚不同YARN和Spark内存相关设置之间的关系，除了spark.python.worker.memory。 spark.python.worker.memory 如何适应
memory - GLSL编译错误 “memory exhausted”
我正在尝试使用复杂的if-else决策树来实现GLSL片段着色器。不幸的是，着色器编译器很早就失败，并出现“语法错误-内存耗尽”错误。 GLSL中的代码大小或决策树深度是否有任何限制？有什么建议如何克
memory - 什么是 "tagged memory"？
什么是“标记内存”，它如何帮助减小程序大小？最佳答案您可能指的是 tagged union ，或更具体地说是硬件实现，如 LISP 机器中使用的标记架构。基本上是一种存储具有类型信息的数据的方法。
memory - 戈朗 : trouble with memory
我的内存有问题。我不明白为什么当我的程序长时间运行时 Go 使用越来越多的内存(从不释放它)。第一次分配后，程序使用了将近 9 MB 的内存。然后在 12 小时后，它开始以指数方式使用更多内存，直到
memory - mac上的matlab "memory"函数？
在 Windows 机器上，MATLAB 用户可以使用 memory或 feature memstats命令。但是，这些都不能在机器上工作，失败如下: >> memory??? Error using
memory-management - Linux 内核启动 : how is memory allocation done when DTB and initramfs are initially in memory?
引导 Linux 内核时，可以在 RAM 中加载 initramfs 存档和 DTB 文件，并将这些物理地址指定给内核。例如，使用 U-Boot，您可以执行以下操作: bootz 0x80008000
memory - 既然现代计算机都使用了虚拟内存，为什么还会遇到 "out of memory"问题呢？
我正在学习虚拟内存的概念，但是这个问题让我困惑了一段时间。由于大多数现代计算机都使用虚拟内存，因此当程序正在执行时，操作系统应该在 RAM 和磁盘之间将数据分页进出。但为什么我们仍然遇到“内存不足”的
memory - RuntimeError : CUDA out of memory. 如何设置max_split_size_mb？
我在 Colab Pro+(使用高 RAM 选项)上运行神经网络时发现了这个问题。运行时错误:CUDA 内存不足。尝试分配 8.00 GiB(GPU 0；15.90 GiB 总容量；12.04 Gi
memory - 为什么从 Memory & I\O 获取数据很昂贵？
当我在任何地方阅读基于操作系统的书籍时，考虑到时间限制和开销很高，从内存和 I\O(子系统)获取数据是昂贵的，这就是为什么在某些硬件制造商中提供一些其他方式来访问它们，如ARM7 some ISAs像
memory-management - 优势数据库服务器 : in-memory queries
据我所知，ADS v.10 尝试将查询结果保留在内存中，直到它变得非常大。对于 __output 表和临时表也应该如此。当结果变大时，交换声明。问题是为查询、 worker 等设置了什么内存限制？可
memory - Docker 的 --memory 开关无法按预期工作
序言我正在写一个小演示文稿来列出使用 Docker 时的一些“陷阱”，我也遇到了自己的一个问题。在解释让 Docker 在没有内存限制的情况下运行的危险时，我发现它的行为不像我预期的那样。我使用
memory - Web服务器容量规划: more cores versus more memory
我们有一个 ASP.NET 项目(40 个左右的 Web 表单、50 个表、相当标准的 IO 内容，并尽可能减少)，很快需要部署。系统上大约有 100 个并发用户，但任何时候只有大约 20 个用户在使
memory-leaks - 如何修复Redis "memory leak"
我在 dotcloud 上使用 redis 内存存储，但尽管 key 已过期，但它的 used_memory 再也不会下降。从 redis-cli 使用 flushdb 或 flushall 不会导致
xcode - 使用 Xcode Memory Graph Debugger 时出现 "Memory Graph Debugger: no serialized memory graph received from LeakAgent"错误
我使用的是 Xcode 10.2.1 和 macOS Catalina Developer Beta 2。每当我尝试使用内存图调试器时，我都会收到此错误: Memory Graph Debugger:
memory-leaks - 如何修复 D "memory leaks"
所以我一直在寻找这个问题的解决方案有一段时间了。我编写了一个程序来从两个单独的文本文件中获取数据，对其进行解析，然后输出到另一个文本文件和一个 ARFF 文件以供 Weka 分析。我遇到的问题是我编写
memory - erlang:memory() 与 memsup:get_system_memory_data()
对不起，我对 erlang 文档中的以下描述不太清楚: erlang:memory() -> [{Type, Size}] with Type: "total" means: "The total a
memory - 在以太坊 Solidity 中， "memory"关键字的用途是什么？
在查看示例合约时，有时会在带有“内存”的方法中声明数组，有时则不会。有什么区别？最佳答案如果没有内存关键字，Solidity会尝试在存储中声明变量。首席 Solidity 开发者 chriset
MATLAB 帕福尔 : memory management: shared memory or not?
我不明白Matlab并行计算工具箱中的parfor cicle是如何与内存一起工作的:我读到它在所有worker之间共享内存(然后我认为每个worker(核心)都可以访问感兴趣的内存位置而无需制作本地

首页

博学

6Ren·AI

商城

memory - 无 ECC 平台的软件内存位翻转检测