gpt4 book ai didi

huggingface-transformers - roberta-large 模型的训练损失并没有减少,但对于 roberta-base、bert-base-uncased 来说训练损失非常好

转载 作者:行者123 更新时间:2023-12-05 06:14:24 30 4
gpt4 key购买 nike

我有一个 pytorch 闪电代码,当与 bert-base-uncased 或 roberta-base 一起使用时,它非常适合二进制分类任务,但不适用于 roberta-large,即训练损失不会下降。

我不知道为什么会这样。我正在寻找此类问题的原因。

编辑:我在 MNLI 数据集上训练(只有蕴涵类和矛盾类)该模型为所有示例预测同一类。

谢谢

最佳答案

我稍微降低了学习率,问题似乎已解决。有趣的是,将学习从 5e-5 更改为 5e-6 会产生如此大的影响。

现在,更大的问题是“如何找到正确的超参数集?”

关于huggingface-transformers - roberta-large 模型的训练损失并没有减少,但对于 roberta-base、bert-base-uncased 来说训练损失非常好,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62904242/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com