深度解读昇腾CANN内存复用技术，降低网络内存占用

转载作者：撒哈拉更新时间：2024-07-09 11:01:34

57

4

本文分享自华为云社区《深度解读昇腾CANN内存复用技术，降低网络内存占用》，作者：昇腾CANN.

随着大模型的兴起，神经网络规模不断扩大，对内存资源的消耗也越来越高，如何降低AI算法的内存占用成为AI计算领域降成本提性能的一个重要手段。当前降低AI算法内存占用的主要技术有内存复用（Memory Reuse）、重算（Recompute）、内存交换（Memory Swap）、控制执行序（Topo优化）等，其中内存复用是应用最广泛的内存优化技术，该技术可在不影响网络执行性能的前提下降低内存占用，结合Topo优化可以进一步降低内存占用，且对执行性能影响也较小.

静态shape的神经网络在基于计算图模式执行时，由于具备计算图的全局视角，可以较完整地记录和管理全局内存及生命周期信息，GE（Graph Engine）图引擎基于业界常规的内存优化技术，借助全图视角对内存复用算法进行了更好的寻优处理，同时进行了Topo排序优化降低网络内存理论最小值，从而更有效地降低网络内存占用.

1 内存复用技术

1.1 常规内存复用技术

如下图所示有一个简单的网络，经过Topo排序后每个节点都有一个唯一的ID，每个节点的输出内存都可以用这个ID来表达生命周期.

其中“生命周期”是指内存从分配到释放的时间段，用拓扑排序序号来表示，在复用处理过程中，生命周期没有重叠的才能复用.

“内存复用”是指按照生命周期和内存大小，把不冲突的内存重复使用，来降低网络内存占用。内存复用算法主要有Binary block复用和Max block复用两种，两种复用算法原理类似，唯一差别是block的大小规划有差异。这里的“block”是指内存复用时的虚拟内存块，并不是真正的内存.

内存占用的“理论最小值”计算方式为：按照内存使用顺序，在每个节点生命周期开始加上内存大小，生命周期结束减去内存大小，不考虑内存碎片和空洞等浪费问题，理论计算得到的内存占用最小值。如下图所示，内存占用的理论最小值为4608，但是如果不做内存复用，总内存大小为8704.

原始网络内存需求示例图:

内存复用处理的主要步骤:

1、获取内存复用block的Range值。

Max block算法取所有内存大小的最大值作为Range，此例为[4096]，Binary block算法会按规则生成多个Range，此例为[1024,2048,4096].

2、Reuse处理。

按照拓扑排序进行内存分配和复用，Max block复用算法block大小都一样，只要生命周期满足要求就可以复用，Binary block复用算法block大小不同，要生命周期和block大小同时满足要求才可以复用.

3、Resize处理。

复用处理时block大小一般都比实际分配的内存大，resize的作用就是根据复用结果把block大小改成合适的大小并做512字节对齐.

下面以Max block算法为例介绍原始内存复用技术的实现原理，Range为[4096]，因此所有block大小都为4096。Max block算法内存复用示例图如下所示:

Reuse处理：按照网络节点顺序进行内存复用。内存分配时的block大小都是4096，标号为A、C、E的内存可以复用,而标号是B、D的内存由于生命周期存在交叉，无法复用。所以复用后得到3个block.

Resize处理：按照block中实际节点内存大小进行压缩。复用完成后每个block取所有节点的内存最大值作为该block最终内存大小，如block1最大的是E，最终大小为4096，block2只有一个B最终大小为2048，block3为512，最后所有block的大小累加就是复用后的总内存大小。如下图所示，复用后总内存大小为6656.

1.2 GE内存复用优化技术

Max block算法进行内存复用时，要求所有block大小都是block Range，即网络节点的内存最大值4096，所以即使实际仅需要较小的内存也要按照最大值进行内存分配，存在一定的内存浪费。Binary block算法虽然对block大小进行了细化，但是要在一定大小范围内的节点才会复用，内存较大和内存较小都无法复用，也会影响内存复用的效果，存在内存浪费的弊端.

因此，GE采用了一种更极致的内存空间复用优化技术。一级复用时只把相同大小的内存复用在一起得到一组block，二级复用时把block按照从大到小排序，顺序取后面一个block，如果生命周期不重叠和当前block进行合并，否则不做处理，以此类推进行多级递归判断，最后把未被合并的block大小进行累加就是最终内存大小，由于大block合并多个小block，因此可以进一步减少内存占用.

一级复用处理：按照实际大小进行复用，不同大小的block不复用在一起，因此AC可以复用，AE大小不同无法复用，复用后示例如下图所示.

一级复用处理后得到4个block（比原有节点数减少了一个，此例比较简单，实际网络中block的数量可以比节点数减少一个数量级），然后根据网络节点生命周期获取block的生命周期。block生命周期示例图如下所示:

然后把block按照从大到小进行排序，排序后结果如下图所示.

二级复用处理：把排序后的大block和小block依次进行合并处理，一个大block可以合并多个小block.

block4生命周期为[5,6]，block2的生命周期为[2,4]，生命周期不重叠，可以和block2进行合并，起始地址对齐。
block1生命周期为[1,4]，和block4生命周期不重叠，但是和block2重叠，因此摆放在block2的右侧，起始地址为block2的结束地址。
block3生命周期为[4,5]，和block4重叠，不能和block4合并，因此只能摆放在block4的右侧。
最终得到复用后的内存大小为4608（4096+512），和理论最小值一致，没有任何浪费。

block合并示例图如下所示:

1.3 GE内存复用优化效果

GE的内存复用优化主要有以下优点:

提高内存复用率，减少内存占用

解决不同大小内存之间的组合复用问题，可以把一块大内存切分成多块小内存进行二次复用，进一步提高内存复用率，减少内存占用.

降低复用算法耗时

先按节点内存实际大小和生命周期进行一级复用，减少二级复用时的block个数（可以减少一个数量级），有效减少二级复用算法耗时.

从16个实际网络模型的测试结果看，采用GE内存复用优化技术可以更好地降低网络内存，单Stream大部分场景可逼近理论最小值，而处理耗时也较短，如下图所示.

较好的内存复用效果主要得益于GE计算图模式有全局的内存大小和生命周期信息，能够让复用算法进行更好的寻优处理；而单算子模式下，由于算法无法预测内存大小，生命周期也没有全局信息，会导致内存空洞和碎片问题，无法将内存复用做到极致，大部分场景内存占用只能做到理论最小值的1.2倍以内。相同网络图模式内存占用会比单算子模式更少，例如，相同的网络下，若单算子模式需要15.14G，图模式只需要13.8G，内存占用可降低9%左右.

2 Topo优化技术

2.1 常规Topo技术

内存复用优化技术主要解决如何逼近理论最小值的问题（一个网络在确定的Topo排序下都有一个理论最小值），而改变Topo排序可以进一步降低理论最小值的下限。业界常用的Topo排序算法有BFS，DFS，逆DFS，在不同的图结构下也会有较大的差异，常规排序算法没有考虑内存相关因素。常规Topo技术示例如下图所示:

如上网络结果所示，DFS选择左侧分支先排序时，如图10中的“优先排序左侧分支”，会导致B的内存生命周期较长[2,6]，无法和C，D内存复用。DFS选择右侧分支先排序时，如图10中的“优先排序右侧分支”，B的内存生命周期是[5,6]，可以和C，D内存进行复用，但是又会导致A内存的生命周期变长由[1,3]变为[1,5]，因此常规Topo排序算法无法做出针对内存的最优选择，最后复用后内存大小是一个不确定的结果.

2.2 GE Topo优化技术

GE针对Topo技术进行了优化，首先做常规Topo排序，然后对排序结果进行处理，结合内存策略把某些节点的排序重新调整，从而确保调整后内存大小是可以降低的。其中一个优化策略就是把输入是长生命周期的节点向后移动，移动到排序最靠前的一个输出节点前.

长生命周期内存的判断规则:

固定规则，根据类型判断，如果某节点的输入是Variable、Constant、Const类型，或者不做复用的Data、RefData类型，则此节点可向后移动，因为这些类型的节点内存本身不做复用，所以节点向后排不影响内存生命周期。
动态规则，根据Topo排序结果进行判断，排序完成后，理论上可以计算出某节点的输入节点内存的最大生命周期，标记为L1，然后寻找本节点的输出内存的最小生命周期，标记为L2，如果L1 > L2，则可以将本节点移动到L2前。

如下图所示，假设节点A是Variable类型，则可以将节点B移动到输出节点F的前面，进行排序优化.

2.3 GE Topo优化效果

做了Topo优化后，降低了网络的内存理论最小值，最后内存复用后的大小会进一步下降，如下是几个网络的实际测试结果.

3 更多介绍

GE内存复用技术的相关介绍就到这里，欢迎大家关注后续技术分享。如需获取更多学习资源请登录昇腾社区.

点击关注，第一时间了解华为云新鲜技术~ 。

。

最后此篇关于深度解读昇腾CANN内存复用技术，降低网络内存占用的文章就讲到这里了,如果你想了解更多关于深度解读昇腾CANN内存复用技术，降低网络内存占用的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

57

4

0

文章推荐：隐写术和常见手法

文章推荐： RK3588开发笔记（四）：基于定制的RK3588一体主板升级镜像

文章推荐： Java智能之SpringAI：5分钟打造智能聊天模型的利器

文章推荐： SpringBoot彩蛋之定制启动画面

解读---深拷贝
引言深拷贝是指创建一个新对象，该对象的值与原始对象完全相同，但在内存中具有不同的地址。这意味着如果您对原始对象进行更改，则不会影响到复制的对象常见的C#常见的深拷贝方式有以下4类：
解读! Python在人工智能中的作用
人工智能是一种未来性的技术，目前正在致力于研究自己的一套工具。一系列的进展在过去的几年中发生了：无事故驾驶超过300000英里并在三个州合法行驶迎来了自动驾驶的一个里程碑；IBM Waston击败了
here-api - 解读 HERE Maps 实时交通标签
我已经阅读了所有 HERE Maps API 文档，但找不到答案。 HERE实时流量REST API输出中的XML标签是什么意思？有谁知道如何解释这个输出(我在我的请求中使用了接近参数)？最佳答
iphone - 解读 iOS 崩溃报告
我的 iPad 应用程序工作正常，我将其留在现场进行测试，但现在崩溃了[保存时？] 这是崩溃日志， Incident Identifier: 80FC6810-9604-4EBA-A982-2009A
c - 解读 qsort 行为
我的程序需要 qsort 的功能才能运行，但到目前为止还没有完成它的工作。我实际上是在对单个字符值的数组进行排序，以便将它们分组，这样我就可以遍历数组并确定每个属性的计数。我的问题是 qsort 返
java - 解读 Java 中面向对象的编程概念
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
c - 解读 Atmega328p 数据表
我正在尝试使用 AVR 代码对 Arduino Uno 进行编程，因为我不被允许在 9 月份开始的高级项目中使用 Arduino 库。我找到了数据表，让数字引脚正常工作，然后尝试通过 USB 串行连接
ios - 解读 iOS 崩溃报告
我遇到了多次崩溃，似乎 native iOS 方法正在从第三方库调用函数。这是一个例子: Thread: Unknown Name (Crashed) 0 libsystem_kernel.d
java - 解读 Dijkstra 算法
我理解如何按照 Dijkstra 算法的解释找到从头到尾的最短路径，但我不明白的是解释。在这里，从图中的图形来看，从 A 到 E 添加到我已知集合的顺序是 A,C,B,D,F,H,G,E 我没有得到的
python - 解读 Django 源代码
我正在查看一些 Django 源代码并遇到了 this . encoding = property(lambda self: self.file.encoding) 究竟是做什么的？最佳答案其他两
python - 解读 Sentry 频率图
Sentry 提供了很好的图表来显示消息频率，但关于它们实际显示的内容的信息很少。这些信息是每分钟吗？ 5分钟？ 15分钟？小时？最佳答案此图表按分钟显示。这是负责存储该图数据的模型。 http
javascript - 解读 Uniswap V3 价格
我对 JavaScript 和 Uniswap 还很陌生。我正在使用 Uniswap V3 从 DAI/USDC 池中获取价格。我的“主要”功能如下所示: async function main()
javascript - 解读 JavaScript(可能是俄语 Javascript？)
我正在尝试弄清楚我下载的 Chrome 扩展程序是如何工作的(这是骗子用来窃取 CS:GO 元素的东西，并不重要...)。我想知道使用什么电子邮件地址(或使用什么其他通信方式)来提交被钓鱼的数据。这
解读---System.Windows.Forms.Timer是前台线程吗?
引言今天同事问了我一个问题， System.Windows.Forms.Timer 是前台线程还是后台线程，我当时想的是它是跟着UI线程一起结束的，应该是前台线程吧？我确实没有仔
scipy - 解读 Scipy 函数的含义和用法 t.interval()
我需要一些使用 scipy.stats.t.interval() 函数的帮助 http://docs.scipy.org/doc/scipy/reference/generated/scipy.sta
sql - 解读 Oracle 查询计划中的 HASH JOIN
当我在 Oracle 查询计划中看到类似的内容时: HASH JOIN TABLE1 TABLE2 这两个表中的哪一个是 hashed ? Oracle 文档指的是通常被散列的“较小”
python - 解读 sklearns 的 GridSearchCV 最好成绩
我想知道 GridSearchCV 返回的分数与按如下方式计算的 R2 指标之间的差异。在其他情况下，我收到的网格搜索分数非常负(同样适用于 cross_val_score)，我将不胜感激解释它是什么
多主架构：VLDB技术论文《TaurusMM:bringingmulti-mastertothecloud》解读
本文分享自华为云社区《多主创新，让云数据库性能更卓越》，作者： GaussDB 数据库。华为《Taurus MM: bringing multi-master to the clou
objective-c - 解读 Mac OS X 崩溃报告
我真的需要一些帮助来破译这个崩溃报告: Process: Farm Hand [616] Path: /Applications/Farm
android - 三星 Galaxy S7 (Camera2) 上的 YUV_420_888 解读
我写了一个从 YUV_420_888 到 Bitmap 的转换，考虑到以下逻辑(据我所知): 总结该方法:内核的坐标 x 和 y 与 Y 平面(2d 分配)的非填充部分的 x 和 y 以及输出位图的

首页

博学

6Ren·AI

商城