gpt4 book ai didi

machine-learning - AWS Sagemaker BlazingText 多个训练文件

转载 作者:行者123 更新时间:2023-11-30 08:36:57 25 4
gpt4 key购买 nike

尝试了解您是否可以在 Amazon Sagemaker BlazingText 中为数据集使用多个文件。

我正在尝试在文本分类模式下使用它。

看来不可能,在文件模式下肯定不行,但想知道管道模式是否支持。我不想将所有训练数据放在 1 个文件中,因为如果它是由 EMR 集群生成的,我需要随后将其合并,这很笨重。

谢谢!

最佳答案

您说得对,文件模式不支持多个文件( https://docs.aws.amazon.com/sagemaker/latest/dg/blazingtext.html )。

管道模式理论上可以工作,但有一些注意事项:

{"source":"linux ready for prime time ", "label":1}
{"source":"bowled by the slower one ", "label":2}

然后您必须将 _ AttributeNames_ 参数传递给 createTrainingJob SageMaker API(上面的链接对此进行了全部解释)。

  • 对于增强 list ,目前仅支持一个标签。

为了使用管道模式,您需要修改 EMR 作业以生成增强 list 格式,并且每个句子只能使用一个标签。

在此阶段,将 EMR 作业生成的文件连接到单个文件似乎是最佳选择。

关于machine-learning - AWS Sagemaker BlazingText 多个训练文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56569605/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com