gpt4 book ai didi

google-cloud-platform - Google AI Platform 训练 - 等待作业完成

转载 作者:行者123 更新时间:2023-12-04 08:35:50 34 4
gpt4 key购买 nike

我构建了一个包含许多并行进程的 AI Platform 流水线。每个流程都会在 AI Platform 上启动一个训练作业,如下所示:

gcloud ai-platform jobs submit training ... 
然后它必须等待作业完成才能进入下一步。为此,我尝试添加参数 --stream-logs到上面的命令。通过这种方式,它会流式传输所有日志,直到作业完成。
问题是,有这么多并行进程,我用完了获取日志的请求:
Quota exceeded for quota metric 'Read requests' and limit 'Read requests per minute' 
of service 'logging.googleapis.com'
但是我不需要实际流式传输日志,我只需要一种方法来告诉过程“等待”直到训练工作完成。有没有更聪明、更简单的方法来做到这一点?

最佳答案

我刚刚发现我可以使用 Python API 来启动和监控作业:

training_inputs = {
'scaleTier': 'CUSTOM',
'masterType': 'n1-standard-8',
...
}

job_spec = {'jobId': 'your_job_name', 'trainingInput': training_inputs}


project_name = 'your-project'
project_id = 'projects/{}'.format(project_name)


cloudml = discovery.build('ml', 'v1')

request = cloudml.projects().jobs().create(
body=job_spec,
parent=project_id
)
response = request.execute()
现在我可以设置一个循环,每 60 秒检查一次作业状态
state = 'RUNNING'
while state == 'RUNNING':

time.sleep(60)
status_req = cloudml.projects().jobs().get(name=f'{project_id}/jobs/{job_name}')

state = status_req.execute()['state']

print(state)

关于google-cloud-platform - Google AI Platform 训练 - 等待作业完成,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64806003/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com