gpt4 book ai didi

tensorflow - 使用对象检测 API 的训练未在 AI Platform 中的 GPU 上运行

转载 作者:行者123 更新时间:2023-12-03 20:42:10 27 4
gpt4 key购买 nike

我正在尝试在 tensorflow 2 对象检测 api 中运行一些模型的训练。
我正在使用这个命令:

gcloud ai-platform jobs submit training segmentation_maskrcnn_`date +%m_%d_%Y_%H_%M_%S` \
--runtime-version 2.1 \
--python-version 3.7 \
--job-dir=gs://${MODEL_DIR} \
--package-path ./object_detection \
--module-name object_detection.model_main_tf2 \
--region us-central1 \
--scale-tier CUSTOM \
--master-machine-type n1-highcpu-32 \
--master-accelerator count=4,type=nvidia-tesla-p100 \
-- \
--model_dir=gs://${MODEL_DIR} \
--pipeline_config_path=gs://${PIPELINE_CONFIG_PATH}
训练作业已成功提交,但是当我在 AI 平台上查看我提交的作业时,我注意到它没有使用 GPU!
enter image description here
此外,在查看我的训练作业的日志时,我注意到在某些情况下它无法打开 cuda。它会说这样的话:
Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib64
几个月前,我使用 AI 平台进行培训,并取得了成功。不知道现在有什么变化!
事实上,对于我自己的设置,没有任何改变。
为了记录,我现在正在训练 Mask RCNN。几个月前,我训练了 Faster RCNN 和 SSD 模型。

最佳答案

Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda/extras/CUPTI/lib64:/usr/local/cuda/lib64:/usr/local/nvidia/lib64


我不确定,因为无论如何我都无法测试。通过快速的谷歌搜索,似乎人们由于多种原因遇到了这个问题,解决方案是某种依赖。在 SO 中,有相同的查询被问到,您可能以某种方式错过了它,请先检查它, here .
另外,请检查下面发布的相关问题
  • TensorFlow Issue #26182
  • TensorFlow Issue #45930
  • TensorFlow Issue #38578

  • 在检查了所有可能的解决方案后,问题仍然存在,然后用它更新您的查询。
    我认为您的 Cuda 版本( CUDAcuDNN )和 tf 中存在一些不匹配版本,您应该首先在您的工作环境中检查它们。此外,请确保正确更新 Cuda 路径。根据给出的错误信息,您需要确保以下设置正确。
    export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-11.0/lib64/

    关于tensorflow - 使用对象检测 API 的训练未在 AI Platform 中的 GPU 上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66743171/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com