huggingface-transformers - roberta-large 模型的训练损失并没有减少，但对于 roberta-base、bert-base-uncased 来说训练损失非常好-6ren

huggingface-transformers - roberta-large 模型的训练损失并没有减少，但对于 roberta-base、bert-base-uncased 来说训练损失非常好

转载作者：行者123 更新时间：2023-12-05 06:14:24

我有一个 pytorch 闪电代码，当与 bert-base-uncased 或 roberta-base 一起使用时，它非常适合二进制分类任务，但不适用于 roberta-large，即训练损失不会下降。

我不知道为什么会这样。我正在寻找此类问题的原因。

编辑:我在 MNLI 数据集上训练(只有蕴涵类和矛盾类)该模型为所有示例预测同一类。

谢谢

最佳答案

我稍微降低了学习率，问题似乎已解决。有趣的是，将学习从 5e-5 更改为 5e-6 会产生如此大的影响。

现在，更大的问题是“如何找到正确的超参数集？”

关于huggingface-transformers - roberta-large 模型的训练损失并没有减少，但对于 roberta-base、bert-base-uncased 来说训练损失非常好，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62904242/

文章推荐： java - TextField 中模糊的地方

文章推荐： three.js - 使用 mapbox 更新 3d 模型位置

文章推荐： keras - 值错误 : Found two metrics with the same name: recall

python - 空间和训练数据中的 Cased VS uncased BERT 模型
我想用spacy用于文本分类的预训练 BERT 模型，但我对 cased/uncased 有点困惑楷模。我在某处读到 cased仅当字母大小写可能对任务有帮助时才应使用模型。在我的具体情况下:我正在处
python - max_length、填充和截断参数在 HuggingFace' BertTokenizerFast.from_pretrained ('bert-base-uncased' ) 中如何工作？
我正在处理文本分类问题，我想使用 BERT 模型作为基础，然后是密集层。我想知道这 3 个参数是如何工作的？例如，如果我有 3 个句子: 'My name is slim shade and I am
huggingface-transformers - roberta-large 模型的训练损失并没有减少，但对于 roberta-base、bert-base-uncased 来说训练损失非常好
我有一个 pytorch 闪电代码，当与 bert-base-uncased 或 roberta-base 一起使用时，它非常适合二进制分类任务，但不适用于 roberta-large，即训练损失不会

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

huggingface-transformers - roberta-large 模型的训练损失并没有减少，但对于 roberta-base、bert-base-uncased 来说训练损失非常好