gpt4 book ai didi

python - 如何使用文件列表作为带有 Tensorflow 的 Sagemaker 的训练集?

转载 作者:太空宇宙 更新时间:2023-11-03 20:18:38 25 4
gpt4 key购买 nike

我的训练文件夹中有几百万张图像,并且想要指定其中的一个子集进行训练 - 执行此操作的方法似乎是使用此处所述的 list 文件。

https://docs.aws.amazon.com/sagemaker/latest/dg/augmented-manifest.html

但这似乎是针对标记数据的。如何使用 sagemaker 的 Tensorflow estimator.fit 并使用文件列表而不是整个目录作为输入来启动 sagemaker 训练作业?

最佳答案

您可以使用输入类型管道参数,如下所示:

hyperparameters = {'save_checkpoints_secs':None,
'save_checkpoints_steps':1000}

tf_estimator = TensorFlow(entry_point='./my-training-file', role=role,
training_steps=5100, evaluation_steps=100,
train_instance_count=1, train_instance_type='ml.p3.2xlarge',
input_mode = 'Pipe',
train_volume_size=300, output_path = 's3://sagemaker-pocs/test-carlsoa/kepler/model',
framework_version = '1.12.0', hyperparameters=hyperparameters, checkpoint_path = None)

并创建 list 文件管道作为输入:

train_data = sagemaker.session.s3_input('s3://sagemaker-pocs/test-carlsoa/manifest.json',
distribution='FullyReplicated',
content_type='image/jpeg',
s3_data_type='ManifestFile',
attribute_names=['source-ref'])
#attribute_names=['source-ref', 'annotations'])
data_channels = {'train': train_data}

请注意,您可以使用 ManifestFile 或 AugmentedManifestFile,具体取决于您是否需要提供额外的数据或标签。现在您可以使用 data_channels 作为 tf 估计器的输入:

tf_estimator.fit(inputs=data_channels,logs=True)

关于python - 如何使用文件列表作为带有 Tensorflow 的 Sagemaker 的训练集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58292566/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com