docker - GKE中的GPU部署:tensorflow_model_server:加载共享库时出错:/usr/lib/x86

docker - GKE中的GPU部署:tensorflow_model_server:加载共享库时出错:/usr/lib/x86_64-linux-gnu/libcuda.so.1:文件太短

转载作者：行者123 更新时间：2023-12-02 11:39:26

25

4

我正在尝试使用GPU使用tensorflow模型在GKE上部署模型。我使用docker创建了一个容器，它在云VM上运行良好。我正在尝试使用GKE进行扩展，但是部署存在上述错误。

我创建了只有1个节点的GKE集群，并带有GPU(Tesla T4)。我根据docs安装了驱动程序

据我所知，这似乎是成功的(名为nvidia-driver-installer-tckv4的pod已添加到节点的pod列表中，并且正在正常运行)

接下来，我创建了部署:

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: reph-deployment
spec:
  replicas: 1
  template:
    metadata:
      labels:
        app: reph
    spec:
      containers:
      - name: reph-container
        image: gcr.io/<project-id>/reph_serving_gpu
        resources:
          limits:
            nvidia.com/gpu: 1
        ports:
        - containerPort: 8500
        args:
        - "--runtime=nvidia"

然后，我运行kubectl create -f d1.yaml，并且容器在日志中退出，并出现上述错误。

我还尝试将os从cos切换到ubuntu并从 docs运行示例

我如上所述安装了驱动程序，这次是针对ubuntu。并应用了从GKE文档中提取的此Yaml(仅更改了要消耗的GPU数量):

apiVersion: v1
kind: Pod
metadata:
  name: my-gpu-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:10.0-runtime-ubuntu18.04
    resources:
      limits:
       nvidia.com/gpu: 1

这次，我得到了CrashLoopBackOff，日志中没有更多内容。

有什么主意吗？我是kubernetes和docker的新手，所以我可能缺少一些琐碎的东西，但是我确实尝试坚持使用GKE文档。

最佳答案

好的，我认为文档尚不十分清楚，但是似乎缺少的是在/usr/local/nvidia/lib64环境变量中包括LD_LIBRARY_PATH。
以下yaml文件成功运行:

apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: reph-deployment
spec:
  replicas: 1
  template:
    metadata:
      labels:
        app: reph
    spec:
      containers:
      - name: reph-container
        env: 
        - name: LD_LIBRARY_PATH
          value: "$LD_LIBRARY_PATH:/usr/local/nvidia/lib64"
        image: gcr.io/<project-id>/reph_serving_gpu
        imagePullPolicy: IfNotPresent
        resources:
          limits:
            nvidia.com/gpu: 1
          requests:
            nvidia.com/gpu: 1
        ports:
        - containerPort: 8500
        args:
        - "--runtime=nvidia"

这是GKE docs中的相关部分

关于docker - GKE中的GPU部署:tensorflow_model_server:加载共享库时出错:/usr/lib/x86_64-linux-gnu/libcuda.so.1:文件太短，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57037531/

25

4

0

文章推荐： kubernetes - 不合理的CPU不足以进行部署扩展

文章推荐： kubernetes - 如何在 Kubernetes 中更新 api 版本列表

ERROR: could not load library "/usr/local/pgsql-13/lib/age.so": /usr/local/pgsql-13/lib/age.so: undefined symbol: hash_any_extended(错误：无法加载库“/usr/local/pgsql-13/lib/age.so”：/usr/local/pgsql-13/lib/age.so：未定义符号：HASH_ANY_EXTENDED)
我正在使用源代码中的Postgres 13(Rel_13_STRATE分支)，并且我使用的是来自apachea/age源代码的(Release/PG13/1.3.0分支)中的1.3.0版的Apache
c++ -/usr/bin/ld : cannot find -ldlib/usr/bin/ld: cannot find -lcblas/usr/bin/ld: cannot find -llapack
/usr/bin/ld: cannot find -ldlib /usr/bin/ld: cannot find -lcblas /usr/bin/ld: cannot find -llapack 在
javascript - 错误 : ENOENT, 没有这样的文件或目录 '/usr/lib/nodejs:/usr/lib/node_modules:/usr/share/javascript/app/models
我正在尝试运行 project 。但它给出了一个错误 fs.js:666 return binding.readdir(pathModule._makeLong(path));
linux - 运行命令时./usr 和/usr 之间的区别
我的新 CentOS7 中有两个目录: Work_Folder1/my_project/linux_dev.cfg Work_Folder2/my_project/linux_dev.cfg 如果我尝
postgresql -/usr/lib/和/usr/local/安装PostgreSQL的区别？
我正在读这个thread和 PostgreSQL 9.4 的手册。我跑 ps auxw | grep postgres | grep -- -D 但是得到 postgres 17340 0.0
linux - 在shell中如何处理/usr/sbin和/usr/local/sbin？
我想在我的 shell 中使用系统服务，但该服务的 bin 路径在不同的机器上是不同的(/usr/sbin/myservice 或/usr/local/sbin/myservice)。那么，我怎样才
centos - 如何制作基于arch的rpm规范将库安装到/usr/lib xor/usr/lib64？
我正在为 centos 制定 RPM 规范，如果 arch 是 64 位的，它需要将共享库安装到/usr/lib64，否则需要安装到/usr/lib？最佳答案这不是它应该的工作方式。决定库去向的不
linux - 路径，/usr/bin/和/usr/local/bin/
我使用 gem install watchr 在 OS X (10.8.3) 上安装了 watchr。它安装在 /usr/bin/watchr $ which watchr /usr/bin/watc
Linux /bin, /sbin, /usr/bin, /usr/sbin 区别
在linux下我们经常用到的四个应用程序的目录是：/bin、/sbin、/usr/bin、/usr/sbin bin: bin为binary的简写主要放置一些系统的必备执行档例如:cat、cp
python - PyCharm 无法访问/usr/lib/和/usr/bin/中的文件
我在 Pop_OS 下使用 PyCharm 2020.2.3 和 Python 3.8.6! 20.10(你可以像我使用 Ubuntu 20.10 一样)无法在 /usr/bin 或 /usr/lib
macos -/usr/local/bin 和/usr/local/share 的权限问题
我在新的 MacBook 中使用 OS X Yosemite。刚刚安装了 Homebrew 和一些基本的软件包，最近搬到了这台新电脑上。我注意到，当我安装新的 brew 包时，偶尔会出现链接错误。出
gcc - gcc 链接器如何选择/usr/lib 与/usr/lib64 进行库解析？
我到 gcc 的链接行连续包含以下两个条目: -lrt -lpam 这似乎扩展为: /usr/lib64/librt.so /usr/lib/libpam.so 为什么 rt 解析为 lib64 而
macos - 如何强制/usr/bin/gcc ->/usr/bin/gcc -m32？
我有一个大型捆绑软件发行版的错误 Makefile。在某些时候，编译器总是“忘记”我想在 32 位程序中编译。这导致部分程序具有 64 位库，而其他程序具有 32 位库。如何在每次运行 gcc 时强
go -/usr/lib/golang/src和/usr/lib/golang/pkg之间是什么关系
如果我安装了Go发行版软件包，则会在/usr/lib/golang/pkg中看到很多文件，在/usr/lib/golang/src中看到非常相似的文件集。这两组之间有什么关系？ pkg是从src中的源
Python设置为/usr/local/bin/python 如何设置为/usr/bin/python
我在安装 python 2.7.6 时犯了一个错误，没有使用 home brew，现在我的 python 设置为 /usr/local/bin/python 中的 python(这是 2.7.6)。
linux - 使用 sudo chmod 644/usr 更改/usr 的权限
我是一名见习程序员，有时我的头脑浮在云端.. 我的同事通过 ssh 连接来搞乱我的专业计算机。其中一位告诉我，防止这种情况发生的最佳方法是保护我的计算机。为了做到这一点，我不小心更改了/usr 目录的
c++ -/usr/bin/ld : cannot find -l-L/usr/lib
我在 ubuntu 16.04 上尝试编译 fbthrift ( https://github.com/facebook/fbthrift ) 时遇到奇怪的错误 make[4]: Entering d
linux - 库链接到/usr/lib64，但我需要来自/usr/local/lib64 的链接
我遇到了这个奇怪的问题 ag: /usr/lib64/liblzma.so.5: no version information available (required by ag) 由于某种原因，预装
python -/usr/lib/python 和/usr/lib64/python 有什么区别？
我用的是 ubuntu。我发现安装的许多 Python 库都在 /usr/lib/python 和 /usr/lib64/python 中。当我打印一个模块对象时，模块路径显示该模块位于/usr/
python -/usr/bin/python 与/usr/local/bin/python
在 Linux 上，特别是 Debian Jessie，我应该使用 /usr/bin/python 还是应该在 /usr/local/bin 中安装另一个副本？据我所知，前者是系统版本，随着操作系统

首页

博学

6Ren·AI

商城

docker - GKE中的GPU部署:tensorflow_model_server:加载共享库时出错:/usr/lib/x86_64-linux-gnu/libcuda.so.1:文件太短