memory - Tensorflow:如何减少仅推理模型的内存占用？-6ren

memory - Tensorflow:如何减少仅推理模型的内存占用？

转载作者：行者123 更新时间：2023-12-05 04:09:59

26

4

在推理过程中，我们不需要在通过网络传播时保留前一层的激活。但是，由于我们没有明确告诉程序丢弃它们，因此它不会区分训练和推理过程。有没有一种方法——也许是一个简单的标志、类、方法——在 Tensorflow 中进行这种内存管理？简单地使用 tf.stop_gradient 行吗？

最佳答案

最简单的方法是“freeze”(tensorflow 的术语)您的模型使用他们的 freeze_graph.py脚本。

这个脚本基本上删除了所有不必要的操作，并将所有变量替换为常量，然后将结果图导出回磁盘。

为此，您需要在图表中指定哪些是您在推理过程中使用的输出。无法到达输出(可能是摘要、损失、梯度等)的节点将被自动丢弃。

一旦消除了向后传递，tensorflow 就可以优化其内存使用，尤其是自动优化 free or reuse memory taken by unused nodes .

关于memory - Tensorflow:如何减少仅推理模型的内存占用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45075299/

26

4

0

文章推荐： node.js - 连接到特定 mongodb 数据库时出现身份验证错误

文章推荐： matlab - 在 Matlab 中查找 pcolor 中的轮廓/边缘

文章推荐： python - 如何从django imageFile输入中获取图像

文章推荐： python - subprocess.Popen 创建标志

nlp - 关于 lda 推理
现在，我正在使用 MALLET 包中的 LDA 主题建模工具对我的文档进行一些主题检测。最初一切都很好，我从中得到了 20 个主题。但是，当我尝试使用该模型推断新文档时，结果有点莫名其妙。例如，我故
Scala 类型(推理)问题？
我正在使用 Jersey 在 Scala 中开发 REST web 服务JAX-RS 引用实现，我收到一个奇怪的错误。我正在尝试创建一个 ContentDisposition对象使用 Content
performance - 推理 Haskell 的性能
以下两个用于计算斐波那契数列第 n 项的 Haskell 程序具有截然不同的性能特征: fib1 n = case n of 0 -> 1 1 -> 1 x -> (fib
scala - Scala 中的参数省略/推理
所以在来自 another question 的评论中，我刚刚看到了这个计算字符串中 L 数量的例子: "hello".count('l'==) 而且够疯狂……它有效。从完全扩展的版本开始，我们有:
android - 无法运行 TensorFlow 推理
我在 android 上运行训练有素的 yolov2 网络时遇到问题。我正在使用这个项目进行测试 https://github.com/szaza/android-yolo-v2 . 提供的网络工作正
ios - 将多维数组转换为数据对象以进行 TF 推理
我目前在我的 iOS 应用程序中使用 Tensorflow 的 Swift 版本。我的模型工作正常，但我无法将数据复制到第一个张量中，因此我可以使用神经网络来检测东西。我咨询了the testsui
python - 视频输入上的 TFLite 推理
我有一个 SSD tflite 检测模型，正在台式计算机上使用 Python 运行。就目前而言，我的下面的脚本将单个图像作为推理的输入，并且运行良好: # Load TFLite model
android - 在移动设备上运行递归神经网络(推理)的最快方法
我所拥有的:在 Tensorflow 中经过训练的递归神经网络。我想要的:一个可以尽可能快地运行这个网络的移动应用程序(只有推理模式，没有训练)。我相信有多种方法可以实现我的目标，但我希望您能提供
c++ - 将可变类模板的子类传递给只接受基类的函数(通过参数包推导/推理)
**我得到了一些让我的函数成为纯通用函数的建议，这可行，但我更愿意将函数限制为仅接受 Base 及其子项。在创建可以接受可变模板类基类型参数的函数时遇到问题，而该函数实际上将使用从 Base 派生的
python - 如何使用 Tensorflow 进行分布式预测/推理
我想使用 TF 2.0 在我的 GPU 集群上运行分布式预测。我使用 MirroredStrategy 训练了一个用 Keras 制作的 CNN 并保存了它。我可以加载模型并在其上使用 .predic
Python 与 C++ Tensorflow 推理
实现一个 C++ 代码来加载一个已经训练好的模型然后获取它而不是使用 Python 真的值得吗？我想知道这一点，因为据我所知，用于 python 的 Tensorflow 是幕后的 C++(对于 n
heroku - 有什么方法可以优化 cpu 中的 pytorch 推理？
我将在网站上提供 pytorch 模型(resnet18)。然而，在 cpu(amd3600) 中进行推理需要 70% 的 cpu 资源。我不认为服务器(heroku)可以处理这个计算。有什么方
python - 多处理时 Pytorch 推理 CUDA 内存不足
为了充分利用 CPU/GPU，我运行了多个对不同数据集进行 DNN 推理(前馈)的进程。由于进程在前馈期间分配了 CUDA 内存，因此我收到了 CUDA 内存不足错误。为了缓解这种情况，我添加了 to
tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？
你知道用 1 个 GPU tensorflow 对 2 个 python 进程进行推理的优雅方法吗？假设我有 2 个进程，第一个是分类猫/狗，第二个是分类鸟/飞机，每个进程运行不同的 tensorf
Scala 推理 : fail on 1 evaluation, 成功并具有中间值
我是 Scala 的初学者，不明白这里发生了什么: 给定: val reverse:Option[MyObject] = ... 并且myObject.isNaire返回 bool 值。如果我这样做
haskell - Hindley-Milner 中的 `Let` 推理
我正在尝试通过用我常用的语言 Clojure 实现算法 W 来自学 Hindley-Milner 类型推理。我遇到了 let 推理的问题，我不确定我是否做错了什么，或者我期望的结果是否需要算法之外的东
haskell - Hindley-Milner 中的 `Let` 推理
我正在尝试通过用我常用的语言 Clojure 实现算法 W 来自学 Hindley-Milner 类型推理。我遇到了 let 推理的问题，我不确定我是否做错了什么，或者我期望的结果是否需要算法之外的东
opencv - 如何在运行 Tensorflow 推理 session 之前批处理多个视频帧
我做了一个项目，基本上使用带有 tensorflow 的 googles object detection api。我所做的只是使用预训练模型进行推理:这意味着实时对象检测，其中输入是网络摄像头的视
java - Tensorflow Java 多 GPU 推理
我有一台带有多个 GPU 的服务器，我想在 Java 应用程序内的模型推理期间充分利用它们。默认情况下，tensorflow 占用所有可用的 GPU，但仅使用第一个。我可以想到三个选项来解决这个问题
OpenCV4.5.x DNN + YOLOv5 C++推理
这个预测时间190ms，应该是cpu版本昨天修改了个OpenCV DNN支持部署YOLOv5，6.1版本的Python代码，今天重新转换为C 代码了！貌似帧率比之前涨了点！说明C的确是比Python

首页

博学

6Ren·AI

商城

memory - Tensorflow:如何减少仅推理模型的内存占用？