amazon-web-services - AWS EC2 实例在重启后失去 GPU 支持-6ren

amazon-web-services - AWS EC2 实例在重启后失去 GPU 支持

转载作者：行者123 更新时间：2023-12-04 03:41:53

26

4

在星期二重新启动一个实例时，我首先遇到了在具有 Ubuntu 深度学习 AMI 的 AWS p2.xlarge 机器上失去 GPU 支持的问题。

我现在两天测试了三遍，一位同事遇到了同样的问题，所以我猜是AWS的错误。虽然也许有人知道如何更好地调试它。

基本上，在关机和重启后，实例不再在内核中加载 nvidia 模块。此外，根据 dmesg，似乎加载了不同的内核。所有这一切都是在我没有主动造成的情况下发生的。

以下是使用新实例和 重现问题的步骤。没有自定义代码 .我在爱尔兰 (eu-west-1) 工作，该实例在可用区 eu-west-1a 中启动:

启动了“深度学习 AMI (Ubuntu) 版本”的实例
21.2 (ami-0e9085a8d461c2d01)

实例类型:p2.xlarge，所有默认值

登录实例，只运行了以下四个命令:

ubuntu@...:~$ lsmod | grep nvidia
nvidia              16592896  0
ipmi_msghandler        49152  1 nvidia

dmesg | less
...
[    0.000000] Linux version 4.4.0-1075-aws (buildd@lgw01-amd64-035) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #85-Ubuntu SMP Thu Jan 17 17:15:12 UTC 2019 (Ubuntu 4.4.0-1075.85-aws 4.4.167)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1075-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...

ubuntu@...:~$ nvidia-smi
Tue Mar 19 16:41:53 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79       Driver Version: 410.79       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           On   | 00000000:00:1E.0 Off |                    0 |
| N/A   42C    P8    32W / 149W |      0MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

ubuntu@...:~$ sudo shutdown now

该实例没有立即关闭，也许它正在运行更新，但我没有主动触发。

状态显示“已停止”后，通过 AWS 管理控制台

再次启动实例

运行前三个命令:

ubuntu@...:~$ lsmod | grep nvidia
(no output)

dmesg | less
...
[    0.000000] Linux version 4.4.0-1077-aws (buildd@lcy01-amd64-021) (gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.10) ) #87-Ubuntu SMP Wed Mar 6 00:03:05 UTC 2019 (Ubuntu 4.4.0-1077.87-aws 4.4.170)
[    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-4.4.0-1077-aws root=UUID=96950bba-70e8-4a4b-9d78-d2bc1c767e04 ro console=tty1 console=ttyS0 nvme.io_timeout=4294967295
...

ubuntu@...:~$ nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

如何强制使用内核 4.4.0-1075-aws 启动？由于是 hvm 虚拟化，我无法直接在对话框中选择内核。

最佳答案

在 4.4.0-107x-aws 内核上构建较旧的 NVIDIA 驱动程序似乎存在问题。您可以安装较新的 NVIDIA 驱动程序，该驱动程序应该适用于当前内核:

wget http://us.download.nvidia.com/tesla/410.104/NVIDIA-Linux-x86_64-410.104.run
sudo sh ./NVIDIA-Linux-x86_64-410.104.run --no-drm --disable-nouveau --dkms --silent --install-libglvnd

据 AWS 代表称，驱动程序已于 2019 年 3 月 21 日在深度学习 AMI 中更新 [ AWS forums ]。

关于amazon-web-services - AWS EC2 实例在重启后失去 GPU 支持，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55261273/

26

4

0

文章推荐： visual-studio - CMake "NMake Makefiles"生成器无法编译

文章推荐： java - 将 cellpadding 添加到 Java JTable

文章推荐： ruby-on-rails - AWS RDS - 使用 Rails 进行 IAM 数据库身份验证

c# - 重启/重启 UWP 应用
我有一个 UWP 应用程序(在 Windows/Microsoft Store 中发布)，我正在进行新的更新，我在我的应用程序中使用了 Template10，它具有深色和浅色主题，并且在 Window
Spring批处理暂停/恢复与停止/重启
我是 spring batch 的新手，有一些关于暂停/恢复的问题。看了spring batch的文档，好像没有内置的pause或者resume功能。但是，我从主站点找到了这个用例: http://d
c# - 应用域刷新/重启
我正在编写一个网络服务并有以下观察结果:即使我只是将一个文本文件添加到存储 web 服务引用的所有 dll 的目录 (bin)，appdomain 也会刷新。这会导致存储在字典(在其中一个 dll
Linux脚本启动、停止、重启
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
哈多普。重启 map
Hadoop 1.0.3 工作 36 小时后说: INFO mapred.JobClient: map 42% reduce 0% mapred.JobClient: Job Failed
swift - 重启 AVAssetWriter
我使用 AVAssetWriter 将视频录制到文件中。所以我为此创建了类。 link to gist 然后在项目的某处我推送记录并开始录制视频。 func start() { assetWriter
Python - 在后台运行的无限循环脚本+重启
我想要一个在后台运行的 python 脚本(无限循环)。 def main(): # inizialize and start threads [...] try:
Android Activity 重启
我在重新启动 Activity 时感到困惑。我有两个功能可以很好地完成同一任务。请指导我哪个最好，为什么？ public void restart() { Intent
ruby - 重启 Sidekiq
重启sidekiq的正确方法是什么。它似乎在我启动它时缓存了我的 worker 代码，所以每次我对我的 worker 进行更改时我都需要重新启动它。我正在使用 Ctrl/C 执行此操作，但该过程需要很
android - 重启/关机安卓模拟器
我在我的 Android 模拟器上安装了新字体。说明说我必须重新启动设备。我尝试使用“关机”按钮，但它只显示“正在关机”并且什么也不做。即使我去 adb shell 并运行“重启”它也会挂起。任何想
详解linux中nginx启动重启关闭命令
启动操作 ? 1
nginx关闭/重启/启动的操作方法
关闭 service nginx stop systemctl stop nginx 启动 service nginx start systemctl start n
Linux中使用init命令关机、重启、切换模式等
正在学习Linux中。。。一边学一边记录着。。所有观点只是个人观点 Linux有个文件 /etc/inittab 复制代码代码如下:
kubernetes - 重启 kubelet 会停止所有节点吗？
如果我运行 systemctl restart kubelet它会影响其他正在运行的节点吗？它会停止集群吗？你能预见任何影响吗？任何帮助，将不胜感激! 最佳答案在回答之前，小声明:重启不是由于对
UBUNTU-xinput 重启、拔出等后不要保存设置
嗯，问题是我有一个在 MATE 上完美运行的 Abyssus Razer，但是在 Debian、Elementary、OpenSUSE 和其他平台上，默认设置 super 慢。我用解决了这个问
ubuntu - 重启 NGINX 失败
我在 Ubuntu 16.04 上安装了 NGINX 并编辑了我的配置。当我想用 sudo service nginx restart 重新启动时我得到错误: Job for nginx.servi
php - 停止/重启 Gearmand
我已经在我的 Ubuntu 上安装了 Gearman Job Server(又名 Gearmand)1.0.6: Distributor ID: Ubuntu Description: Ubun
重启/强制重启后继续安装 WiX Burn
我有一个 WiX Burn使用 ManagedBootstrapperApplicationHost 的自定义安装程序。安装必备 Microsoft Windows Installer 之一后4.5
macos - 重启 mosquitto 代理
我已经使用 brew install mosquitto 在我的 mac 上安装了蚊子代理. 通常我不会给出任何命令来启动 mosquitto 服务器。当我打开我的 mac 时它会自动启动。我已经使
kubernetes - 重启 pod 内的容器
我有一个带有 2 个容器的 pod test-1495806908-xn5jn。我想重新启动其中一个名为 container-test 的项目。是否可以重新启动 Pod 中的单个容器以及如何重新启动？

首页

博学

6Ren·AI

商城

amazon-web-services - AWS EC2 实例在重启后失去 GPU 支持