gpt4 book ai didi

python - 机器学习引擎 - 不使用 GPU

转载 作者:太空宇宙 更新时间:2023-11-04 00:13:57 25 4
gpt4 key购买 nike

我正在尝试使用一台 Tesla K80 在 GCloud ML Engine 中训练模型。程序可以运行,但比没有 GPU 的笔记本电脑还要慢。

有一条消息,显示 GPU 没有运行任何进程。我没有更改代码的任何部分以在 GPU 中运行,因为我认为 Tensorflow 会为您决定哪些进程在 CPU 中运行,哪些进程在 GPU 中运行。

在我第一次在云中运行代码后,我尝试将图形操作和优化器包装在 with tf.device('/device:GPU:0') 中,但是任何改变了。

我收到这条消息:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.111 Driver Version: 384.111 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla K80 Off | 00000000:00:04.0 Off | 0 |
| N/A 61C P8 29W / 149W | 1MiB / 11439MiB | 0% Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+

我不知道如何解决这个问题,欢迎任何想法。

提前致谢!

最佳答案

要使用 GPU 进行训练,您必须指定要使用的节点类型。这是在一个 yaml 文件中完成的,您在开始作业时必须引用该文件。

config.yaml 示例:

trainingInput:
pythonVersion: "3.5"
scaleTier: CUSTOM
# standard_gpu provides 1 GPU. Change to complex_model_m_gpu for 4 GPUs
masterType: standard_gpu

然后,当您提交作业时,像这样引用它:

gcloud ml-engine jobs submit training $JOB_NAME \
--package-path $APP_PACKAGE_PATH \
--module-name $MAIN_APP_MODULE \
--job-dir $JOB_DIR \
--region us-central1 \
--config config.yaml \
-- \

应该确保您在使用 python 3.5 的“standard_gpu”节点上运行。有关详细信息,请参阅 here .

正如@ultraviolet 在上面的评论中提到的,要使用 GPU,您需要使用 tensorflow-gpu不是 tensorflow。这意味着,在您的 setup.py 文件中,您不得tensorflow 指定为要求。相反,要么根本不指定 tensorflow(它始终由平台提供),要么指定 tensorflow-gpu

一个有效的 setup.py 看起来像这样:

from setuptools import setup, find_packages

setup(name='SOME_NAME',
version='0.1',
packages=find_packages(),
description='YOUR DESCRIPTION',
install_requires=[
'tensorflow-gpu'
],
include_package_data=True,
zip_safe=False)

如果您想确保您没有在 CPU 上运行整个作业并花很多钱在家里的笔记本电脑上做一些事情,您还可以添加完整性检查。例如:

import tensorflow as tf
if tf.test.gpu_device_name():
print('Default GPU: {}'.format(tf.test.gpu_device_name()))
else:
print('Failed to find default GPU.')
sys.exit(1)

关于python - 机器学习引擎 - 不使用 GPU,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51535378/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com