gpt4 book ai didi

amazon-web-services - AWS Sagemaker - "Hidden file found in the data path! Remove that before training."

转载 作者:行者123 更新时间:2023-12-02 03:32:48 27 4
gpt4 key购买 nike

我正在尝试使用 Amazon Sagemaker (xgboost: eu-west-1': '685385470294.dkr.ecr.eu-west-1.amazonaws.com/xgboost:latest') 训练模型。但在开始训练工作后不久,我总是收到相同的错误消息:

"ClientError: Hidden file found in the data path! Remove that before training."

S3控制台显示输出路径为空(我也尝试创建新目录但无济于事)。未为存储桶启用版本控制。

令人惊讶的是,谷歌在该错误消息下找不到任何内容。

我已配置输入和输出如下:

   "InputDataConfig": [
{
"ChannelName": "train",
"DataSource": {
"S3DataSource": {
"S3DataType": "S3Prefix",
"S3Uri": "s3://{}/{}-inputdata/train".format(s3_utils.bucket, LABEL)
}
},
"ContentType": "csv",
"CompressionType": "None"
},
{
"ChannelName": "validation",
"DataSource": {
"S3DataSource": {
"S3DataType": "S3Prefix",
"S3Uri": "s3://{}/{}-inputdata/validation".format(s3_utils.bucket, LABEL)
}
},
"ContentType": "csv",
"CompressionType": "None"
}
],
"OutputDataConfig": {
"S3OutputPath": "s3://{}/{}-xgboost-output".format(s3_utils.bucket, LABEL) },

领域

    "RoleArn": role,

角色从何而来

    from sagemaker import get_execution_role
role = get_execution_role()

并且是

    arn:aws:iam::<ACCOUNT>:role/service-role/AmazonSageMaker-ExecutionRole-<HIDDEN>

这是显示数据路径的屏幕截图: S3 dashboard view of data-path 。这两个 csv 文件就是全部了。特别是,不存在空“目录”,这可能就是“隐藏文件”的含义。

最佳答案

好的,您在 S3Uri 中设置的前缀在这里很重要。根据您的屏幕截图,我认为您的存储桶看起来像这样(以树形式):

s3://bucket
└── LABEL-inputdata
├── train.csv
└── validation.csv

根据上面的 InputDataConfig,SageMaker 必须将其下载到文件系统上的文件夹,以便运行 xgboost 训练算法。它根据 channel 名称和您提供的 S3Uri 前缀来执行此操作。前缀被截断以确定要下载到的文件夹/文件的名称。因此,在您的示例中,train channel 下载为:

/opt/ml/input/data/train/.csv

最后,xgboost 实现将 .csv 文件视为隐藏文件并对此进行提示。

要使其正常工作,您可以像这样重新排列 s3 中的数据...

s3:bucket
└── LABEL-inputdata
├── train
│   └── data.csv
└── validation
└── data.csv

..并将您的输入数据配置更改为:

   "InputDataConfig": [
{
"ChannelName": "train",
"DataSource": {
"S3DataSource": {
"S3DataType": "S3Prefix",
"S3Uri": "s3://{}/{}-inputdata/train/".format(s3_utils.bucket, LABEL)
}
},
"ContentType": "csv",
"CompressionType": "None"
},
{
"ChannelName": "validation",
"DataSource": {
"S3DataSource": {
"S3DataType": "S3Prefix",
"S3Uri": "s3://{}/{}-inputdata/validation/".format(s3_utils.bucket, LABEL)
}
},
"ContentType": "csv",
"CompressionType": "None"
}

关于amazon-web-services - AWS Sagemaker - "Hidden file found in the data path! Remove that before training.",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51293471/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com