gpt4 book ai didi

pytorch - 在 Huggingface Trainer 类中恢复训练时如何避免迭代 Dataloader?

转载 作者:行者123 更新时间:2023-12-03 20:50:42 25 4
gpt4 key购买 nike

我目前正在使用 Huggingface 的 Trainer 类来训练 Distillbert 使用自定义损失函数解决回归问题。由于计算/意外错误的短暂性质,我正在使用他们的检查点来恢复训练。
我面临的问题是,每次我通过 model_path 按照他们的培训师类(class)从检查点恢复培训时在 Trainer.train()方法,我注意到该类遍历数据加载器,直到达到检查点中保存的迭代计数( see the lines from the Trainer class that match the issue )。
这通常不是问题,但由于我的数据加载器整理功能的性质和数据集的大小,在没有任何培训的情况下迭代这样的持续时间非常昂贵,并且会减慢整体培训速度。
我计划使用自定义采样器类 something along the lines of this使用参数从给定的位置恢复索引,但这对于给定的问题似乎也很棘手。
我可以尝试节省这种浪费的计算周期的替代方法是什么?

最佳答案

好吧,看起来 Huggingface 通过使用 ignore_data_skip 提供了解决方案。 TrainingArguments 中的参数.
尽管您必须小心使用此标志。它本质上就像您从第 0 步开始一个新纪元一样。但是您会将优化器/模型状态移动到从恢复点开始的任何状态。

关于pytorch - 在 Huggingface Trainer 类中恢复训练时如何避免迭代 Dataloader?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63045229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com