gpt4 book ai didi

google-cloud-platform - GCP - GPU 暂存时间减少

转载 作者:行者123 更新时间:2023-12-05 05:56:15 34 4
gpt4 key购买 nike

我有一个应用程序需要尽可能短的启动时间/TTL,GPU 连接到 GCP CE 中的虚拟机。为了降低成本,我的基础架构依赖于在需求增加/减少时启动和停止实例。

我在没有 GPU 的情况下使用自定义图像实现了不到 5 秒的启动时间,但是一旦我连接了 GPU,“运行”的时间总是超过 20-30 秒。

我尝试了多种不同的发行版、clear linux、预打包的 Nvidia 驱动程序镜像、Fedora 的最小安装、最小化的 Debian、减少内核和用户空间 - systemd-analyze 说我的启动时间是 3 秒,但使用 GPU 启动 VM运行前在“STAGING”中需要 20-30 秒。

发生在 gpu 连接到 VM 时,当移除 VM 时,VM 在 systemd-analyze 提到的时间内启动。它在所有发行版和引导镜像中都是一致的。

我是否缺少任何软件包或文档来加快连接 GPU 的暂存时间,或者这是 GCP 内部暂存 GPU 实例的限制?

如果有任何帮助或建议,我将不胜感激。

如果您也遇到这个问题并想跟踪它的进展,我创建了一个问题报告: https://issuetracker.google.com/issues/200575905

最佳答案

这是 GCE 和 GKE 的内部限制,目前没有太多的办法可以解决这个问题。
但是,我注意到启动时间随着时间的推移而下降,因此这件事有所改善。您可以通过 Public Issue Tracker 报告此事跟进发展。

您也可以考虑使用 Committed Use DiscountSustained Use Discounts .从长远来看,保持实例运行并因此完全避免启动问题可能是有益的。

关于google-cloud-platform - GCP - GPU 暂存时间减少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69234042/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com