gpt4 book ai didi

azure - 在 Azure ML 服务中安装 FileDatasets

转载 作者:行者123 更新时间:2023-12-02 06:19:05 24 4
gpt4 key购买 nike

我在 Azure 机器学习服务中的数据集模块中遇到问题。我创建了一个包含一堆图像的 FileDataset,用于在 TensorFlow 中训练模型。我将数据集安装在目标计算中,然后将安装点传递给训练脚本,如in the sample notebook we have on GitHub所述。 。

我尝试了两种方法:将路径作为脚本参数传递(如 GitHub 上的建议)和作为命名输入,但它们似乎都没有正确传递安装点。有人知道哪种方法可以使其发挥作用吗? (顺便说一句,我可以让它与数据源一起使用)

作为脚本参数

script_params = {
'--data-folder': dset.as_named_input('dogscats_train').as_mount('tmp/dataset'),
}

src = TensorFlow(source_directory = r'Tensorflow',
framework_version = '1.13',
entry_script = 'train.py',
script_params=script_params,
compute_target='amlcompute',
vm_size='Standard_NC6',
use_gpu = True,
pip_packages = ['matplotlib', 'pillow', 'numpy', 'azureml-sdk'])

安装路径:

/mnt/batch/tasks/shared/LS_root/jobs/aa-ml-aml-workspace/azureml/cats-vs-dogs-tensorflow_1570799752_014bea9f/mounts/workspaceblobstore/azureml/cats-vs-dogs-tensorflow_1570799752_014bea9f/tmp/数据集

脚本中收到的实际路径:

/tmp/数据集

作为命名输入

src = TensorFlow(source_directory =  r'Tensorflow',
framework_version = '1.13',
entry_script = 'train.py',
inputs=[dset.as_named_input('dogscats_train')],
compute_target='amlcompute',
vm_size='Standard_NC6',
use_gpu = True,
pip_packages = ['matplotlib', 'pillow', 'numpy', 'azureml-sdk'])

安装路径:

/mnt/batch/tasks/shared/LS_root/jobs/aa-ml-aml-workspace/azureml/cats-vs-dogs-tensorflow_1570804147_39168dcf/mounts/workspaceblobstore

由 run.input_datasets['dogscats_train'].mount('tmp/dataset').mount_point 检索的路径:

/mnt/batch/tasks/shared/LS_root/jobs/aa-ml-aml-workspace/azureml/cats-vs-dogs-tensorflow_1570804147_39168dcf/mounts/workspaceblobstore/azureml/cats-vs-dogs-tensorflow_1570804147_39168dcf/tmp/数据集

最佳答案

在这两种方法中,传递给 as_mountmount 的路径都是相对路径,也就是说,它不以前导 /< 开头,这将导致数据集相对于当前工作目录安装,在您的情况下为 /mnt/batch/tasks/shared/LS_root/jobs/aa-ml-aml-workspace/azureml/cats-vs-dogs-tensorflow_1570799752_014bea9f/mounts/workspaceblobstore/azureml/cats-vs-dogs-tensorflow_1570799752_014bea9f

如果您想挂载到/tmp/dataset,则需要执行dset.as_named_input('dogscats_train').as_mount('/tmp/dataset') code>,即需要在目标路径中显式添加一个/,使该路径成为绝对路径。

我创建了一个gist显示相对路径与绝对路径的效果。

submit.py:提交 TensorFlow 运行

so.py:比较两个参数,第一个参数是相对路径,第二个参数是绝对路径。

driver_log_partial.txt:是您在运行详细信息页面中看到的驱动程序日志的部分输出。

现在关于您传递给 as_named_input 的名称。然后,该名称可用作环境变量,其值与脚本参数的值相同,即数据集安装到的路径。该名称还可以用作 run.input_datasets 的键,其中该值也是数据集安装到的路径。也就是说,访问挂载路径的方式有3种,你可以选择最适合你代码的一种。

关于azure - 在 Azure ML 服务中安装 FileDatasets,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58344194/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com