tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？-6ren

tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？

转载作者：行者123 更新时间：2023-12-03 16:17:31

27

4

你知道用 1 个 GPU tensorflow 对 2 个 python 进程进行推理的优雅方法吗？

假设我有 2 个进程，第一个是分类猫/狗，第二个是分类鸟/飞机，每个进程运行不同的 tensorflow 模型并在 GPU 上运行。这 2 个模型将连续获得来自不同相机的图像。
通常，tensorflow 会占用整个 GPU 的所有内存。所以当你开始另一个进程时，它会崩溃，说内存不足或卷积 CUDA 失败或类似的东西。
是否有教程/文章/示例代码显示如何在不同进程中加载 2 个模型并同时运行？
如果您在执行一些繁重的图形时运行模型推理，这也非常有用，例如玩游戏。我也想知道运行模型如何影响游戏。

我试过使用 python 线程，它可以工作，但每个模型的预测速度要慢 2 倍(而且你知道 python 线程没有使用多个 CPU 内核)。我想使用 python Process 但它不起作用。如果您有几行代码示例，我将非常感激。

我还附上了当前的线程代码:

最佳答案

好的。我想我现在已经找到了解决方案。

我使用 tensorflow 2 并且基本上有两种方法来管理 GPU 的内存使用情况。

将内存增长设置为 true

将内存限制设置为某个数字

您可以使用这两种方法，忽略所有关于内存不足的警告消息。我仍然不知道它究竟意味着什么，但模型仍在运行，这就是我关心的。
我测量了模型用于运行的确切时间，它比在 CPU 上运行要好得多。如果我同时运行两个进程，速度会有所下降，但仍然比在 CPU 上运行要好得多。

对于内存增长方法，我的 GPU 为 3GB，因此第一个进程尝试分配所有内容，然后第二个进程表示内存不足。但它仍然有效。

对于内存限制方法，我将限制设置为某个数字，例如1024 MB。这两个过程都有效。

那么您可以设置的正确最小数量是多少？

我尝试减少内存限制，直到我发现我的模型可以正常使用 64 MB 限制。预测速度还是和我将内存限制设置为 1024 MB 时的一样。当我将内存限制设置为 32MB 时，我注意到速度下降了 50%。当我设置为 16 MB 时，模型拒绝运行，因为它没有足够的内存来存储图像张量。
这意味着我的模型至少需要 64 MB，考虑到我有 3GB 可用空间，这很少。这也允许我在玩一些视频游戏时运行模型。

结论:我选择使用具有 64 MB 限制的内存限制方法。您可以在此处查看如何使用内存限制: https://www.tensorflow.org/guide/gpu

我建议您尝试更改内存限制以查看模型所需的最小值。当内存不足时，您会看到速度下降或模型拒绝运行。

关于tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60618896/

27

4

0

文章推荐： xml - 使用 XPATH 乘以节点值和属性的总和

文章推荐： php - 为什么这个 PHP SimpleXML XPath 找不到值？

文章推荐： css - Next.JS:使用全局 scss 中的 SASS 变量

nlp - 关于 lda 推理
现在，我正在使用 MALLET 包中的 LDA 主题建模工具对我的文档进行一些主题检测。最初一切都很好，我从中得到了 20 个主题。但是，当我尝试使用该模型推断新文档时，结果有点莫名其妙。例如，我故
Scala 类型(推理)问题？
我正在使用 Jersey 在 Scala 中开发 REST web 服务JAX-RS 引用实现，我收到一个奇怪的错误。我正在尝试创建一个 ContentDisposition对象使用 Content
performance - 推理 Haskell 的性能
以下两个用于计算斐波那契数列第 n 项的 Haskell 程序具有截然不同的性能特征: fib1 n = case n of 0 -> 1 1 -> 1 x -> (fib
scala - Scala 中的参数省略/推理
所以在来自 another question 的评论中，我刚刚看到了这个计算字符串中 L 数量的例子: "hello".count('l'==) 而且够疯狂……它有效。从完全扩展的版本开始，我们有:
android - 无法运行 TensorFlow 推理
我在 android 上运行训练有素的 yolov2 网络时遇到问题。我正在使用这个项目进行测试 https://github.com/szaza/android-yolo-v2 . 提供的网络工作正
ios - 将多维数组转换为数据对象以进行 TF 推理
我目前在我的 iOS 应用程序中使用 Tensorflow 的 Swift 版本。我的模型工作正常，但我无法将数据复制到第一个张量中，因此我可以使用神经网络来检测东西。我咨询了the testsui
python - 视频输入上的 TFLite 推理
我有一个 SSD tflite 检测模型，正在台式计算机上使用 Python 运行。就目前而言，我的下面的脚本将单个图像作为推理的输入，并且运行良好: # Load TFLite model
android - 在移动设备上运行递归神经网络(推理)的最快方法
我所拥有的:在 Tensorflow 中经过训练的递归神经网络。我想要的:一个可以尽可能快地运行这个网络的移动应用程序(只有推理模式，没有训练)。我相信有多种方法可以实现我的目标，但我希望您能提供
c++ - 将可变类模板的子类传递给只接受基类的函数(通过参数包推导/推理)
**我得到了一些让我的函数成为纯通用函数的建议，这可行，但我更愿意将函数限制为仅接受 Base 及其子项。在创建可以接受可变模板类基类型参数的函数时遇到问题，而该函数实际上将使用从 Base 派生的
python - 如何使用 Tensorflow 进行分布式预测/推理
我想使用 TF 2.0 在我的 GPU 集群上运行分布式预测。我使用 MirroredStrategy 训练了一个用 Keras 制作的 CNN 并保存了它。我可以加载模型并在其上使用 .predic
Python 与 C++ Tensorflow 推理
实现一个 C++ 代码来加载一个已经训练好的模型然后获取它而不是使用 Python 真的值得吗？我想知道这一点，因为据我所知，用于 python 的 Tensorflow 是幕后的 C++(对于 n
heroku - 有什么方法可以优化 cpu 中的 pytorch 推理？
我将在网站上提供 pytorch 模型(resnet18)。然而，在 cpu(amd3600) 中进行推理需要 70% 的 cpu 资源。我不认为服务器(heroku)可以处理这个计算。有什么方
python - 多处理时 Pytorch 推理 CUDA 内存不足
为了充分利用 CPU/GPU，我运行了多个对不同数据集进行 DNN 推理(前馈)的进程。由于进程在前馈期间分配了 CUDA 内存，因此我收到了 CUDA 内存不足错误。为了缓解这种情况，我添加了 to
tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？
你知道用 1 个 GPU tensorflow 对 2 个 python 进程进行推理的优雅方法吗？假设我有 2 个进程，第一个是分类猫/狗，第二个是分类鸟/飞机，每个进程运行不同的 tensorf
Scala 推理 : fail on 1 evaluation, 成功并具有中间值
我是 Scala 的初学者，不明白这里发生了什么: 给定: val reverse:Option[MyObject] = ... 并且myObject.isNaire返回 bool 值。如果我这样做
haskell - Hindley-Milner 中的 `Let` 推理
我正在尝试通过用我常用的语言 Clojure 实现算法 W 来自学 Hindley-Milner 类型推理。我遇到了 let 推理的问题，我不确定我是否做错了什么，或者我期望的结果是否需要算法之外的东
haskell - Hindley-Milner 中的 `Let` 推理
我正在尝试通过用我常用的语言 Clojure 实现算法 W 来自学 Hindley-Milner 类型推理。我遇到了 let 推理的问题，我不确定我是否做错了什么，或者我期望的结果是否需要算法之外的东
opencv - 如何在运行 Tensorflow 推理 session 之前批处理多个视频帧
我做了一个项目，基本上使用带有 tensorflow 的 googles object detection api。我所做的只是使用预训练模型进行推理:这意味着实时对象检测，其中输入是网络摄像头的视
java - Tensorflow Java 多 GPU 推理
我有一台带有多个 GPU 的服务器，我想在 Java 应用程序内的模型推理期间充分利用它们。默认情况下，tensorflow 占用所有可用的 GPU，但仅使用第一个。我可以想到三个选项来解决这个问题
OpenCV4.5.x DNN + YOLOv5 C++推理
这个预测时间190ms，应该是cpu版本昨天修改了个OpenCV DNN支持部署YOLOv5，6.1版本的Python代码，今天重新转换为C 代码了！貌似帧率比之前涨了点！说明C的确是比Python

首页

博学

6Ren·AI

商城

tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？