gpt4 book ai didi

azure - 使用 Devops 的自定义环境运行 Azure ML 作业时出现磁盘已满错误

转载 作者:行者123 更新时间:2023-12-02 06:54:20 26 4
gpt4 key购买 nike

使用从 Azure DevOps 启动的 Azure ML SDK 运行模型训练作业时,出现磁盘已满错误。我在 Azure ML 工作区中创建了一个自定义环境并使用它。

我正在 Azure DevOps 中使用 azure CLI 任务来启动这些训练作业。如何解决磁盘已满问题?

DevOps 培训任务中显示的错误消息:

"error": {
"code": "UserError",
"message": "{\"Compliant\":\"Disk full while running job. Please consider reducing amount of data accessed, or upgrading VM SKU. Total space: 14045 MB, available space: 1103 MB.\"}\n{\n \"code\": \"DiskFullError\",\n \"target\": \"\",\n \"category\": \"UserError\",\n \"error_details\": []\n}",
"messageParameters": {},
"details": []
},

训练作业的 .runco​​nfig 文件:

 framework: Python
script: cnn_training.py
communicator: None
autoPrepareEnvironment: true
maxRunDurationSeconds:
nodeCount: 1
environment:
name: cnn_training
python:
userManagedDependencies: true
interpreterPath: python
docker:
enabled: true
baseImage: 54646eeace594cf19143dad3c7f31661.azurecr.io/azureml/azureml_b17300b63a1c2abb86b2e774835153ee
sharedVolumes: true
gpuSupport: false
shmSize: 2g
arguments: []
history:
outputCollection: true
snapshotProject: true
directoriesToWatch:
- logs
dataReferences:
workspaceblobstore:
dataStoreName: workspaceblobstore
pathOnDataStore: dataname
mode: download
overwrite: true
pathOnCompute:

是否需要进行额外配置来解决磁盘已满问题? .runco​​nfig 文件中需要进行任何更改吗?

最佳答案

根据您下面的错误消息,我们认为您的问题是由于您的计算集群或 VM Sku 存储空间不足造成的。

运行作业时磁盘已满。请考虑减少访问的数据量或升级 VM SKU。总空间:14045 MB,可用空间:1103 MB。

我建议您可以考虑以下三个步骤,然后再次测试。

1.清除存储缓存,

2.升级集群存储大小

3.优化机器学习资源大小

==========================

11/10 更新

嗨,L_Jay您可以引用Azure Machine Learning升级您的订阅以获得更好的性能实例。

关于azure - 使用 Devops 的自定义环境运行 Azure ML 作业时出现磁盘已满错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74360262/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com