- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试使用 BERT 微调模型(使用 transformers
库),但我对优化器和调度器有点不确定。
首先,我明白我应该使用 transformers.AdamW
而不是 Pytorch 的版本。此外,我们应该使用论文中建议的预热调度程序,因此调度程序是使用 get_linear_scheduler_with_warmup
创建的。函数来自 transformers
包裹。
我的主要问题是:
get_linear_scheduler_with_warmup
应该在热身时调用。可以在 10 个 epoch 中使用 2 进行热身吗? scheduler.step()
?如果我在 train
之后做,第一个 epoch 的学习率为零。我应该为每批调用它吗? from transformers import AdamW
from transformers.optimization import get_linear_scheduler_with_warmup
N_EPOCHS = 10
model = BertGRUModel(finetune_bert=True,...)
num_training_steps = N_EPOCHS+1
num_warmup_steps = 2
warmup_proportion = float(num_warmup_steps) / float(num_training_steps) # 0.1
optimizer = AdamW(model.parameters())
criterion = nn.BCEWithLogitsLoss(pos_weight=torch.Tensor([class_weights[1]]))
scheduler = get_linear_schedule_with_warmup(
optimizer, num_warmup_steps=num_warmup_steps,
num_training_steps=num_training_steps
)
for epoch in range(N_EPOCHS):
scheduler.step() #If I do after train, LR = 0 for the first epoch
print(optimizer.param_groups[0]["lr"])
train(...) # here we call optimizer.step()
evaluate(...)
class BERTGRUSentiment(nn.Module):
def __init__(self,
bert,
hidden_dim,
output_dim,
n_layers=1,
bidirectional=False,
finetune_bert=False,
dropout=0.2):
super().__init__()
self.bert = bert
embedding_dim = bert.config.to_dict()['hidden_size']
self.finetune_bert = finetune_bert
self.rnn = nn.GRU(embedding_dim,
hidden_dim,
num_layers = n_layers,
bidirectional = bidirectional,
batch_first = True,
dropout = 0 if n_layers < 2 else dropout)
self.out = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, output_dim)
self.dropout = nn.Dropout(dropout)
def forward(self, text):
#text = [batch size, sent len]
if not self.finetune_bert:
with torch.no_grad():
embedded = self.bert(text)[0]
else:
embedded = self.bert(text)[0]
#embedded = [batch size, sent len, emb dim]
_, hidden = self.rnn(embedded)
#hidden = [n layers * n directions, batch size, emb dim]
if self.rnn.bidirectional:
hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim = 1))
else:
hidden = self.dropout(hidden[-1,:,:])
#hidden = [batch size, hid dim]
output = self.out(hidden)
#output = [batch size, out dim]
return output
import torch
from sklearn.metrics import accuracy_score, f1_score
def train(model, iterator, optimizer, criterion, max_grad_norm=None):
"""
Trains the model for one full epoch
"""
epoch_loss = 0
epoch_acc = 0
model.train()
for i, batch in enumerate(iterator):
optimizer.zero_grad()
text, lens = batch.text
predictions = model(text)
target = batch.target
loss = criterion(predictions.squeeze(1), target)
prob_predictions = torch.sigmoid(predictions)
preds = torch.round(prob_predictions).detach().cpu()
acc = accuracy_score(preds, target.cpu())
loss.backward()
# Gradient clipping
if max_grad_norm:
torch.nn.utils.clip_grad_norm_(model.parameters(), max_grad_norm)
optimizer.step()
epoch_loss += loss.item()
epoch_acc += acc.item()
return epoch_loss / len(iterator), epoch_acc / len(iterator)
最佳答案
Here您可以使用 get_linear_scheduler_with_warmup
看到学习率变化的可视化。 .
引用 this评论:预热步骤是一个用于降低学习率的参数,以减少模型偏离学习对突然的新数据集暴露的影响。
默认情况下,预热步骤数为 0。
然后你迈出更大的步伐,因为你可能不在最小值附近。但是当你接近最小值时,你会采取更小的步骤来收敛到它。
另请注意,训练步数为 number of batches
* number of epochs
,但不仅仅是number of epochs
.所以,基本上num_training_steps = N_EPOCHS+1
不正确,除非您的 batch_size
等于训练集的大小。
您调用scheduler.step()
每批,就在 optimizer.step()
之后, 更新学习率。
关于nlp - BERT 微调的优化器和调度器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60120043/
有没有人对如何解决这个查询有任何想法? 有一张客户表和一张许可证表。每个客户可以有多个在不同时间到期的许可证,一些已经过期,一些还没有。如果我想选择至少拥有一个有效许可证的所有客户,我会这样做: SE
我一直在尝试微调 HuggingFace: Blendebot 的对话模型。我已经尝试过拥抱脸官方网站上给出的常规方法,它要求我们使用 trainer.train() 方法来完成。我也尝试过使用 .c
是否有内置的 JavaScript 字符串方法可以帮助我微调这段代码以确保它只找到与名称完全匹配的内容? 这是我的代码。 /*jshint multistr:true */ var text = "S
我需要微调我的 word2vec 模型。我有两个数据集,data1 和 data2。 到目前为止我所做的是: model = gensim.models.Word2Vec( data1
在苹果的应用程序中,我注意到滚动效果非常完美。一切都进展顺利,当你停下来时,它就停止了。您可以拥有一个巨大的图像并直接移动到任何位置,并且它会停留在那里。 我想提供相同的 UE,但对于我的应用程序,如
问题 请帮助理解以下问题的原因以及如何构建 Keras 模型以在 huggingface 的预训练模型之上进行微调。 目标 在 TFDistilBertForSequenceClassificatio
我正在尝试为不同的数据集和不同的算法绘制一堆 ROC 区域。 我有三个变量:“Scheme”指定使用的算法,“Dataset”是测试算法的数据集,以及“Area_under_ROC”。 我在 R 中使
我正在使用 CNN 进行面部表情识别。我使用 Keras 和 Tensorflow 作为后端。我的模型保存为 h5 格式。 我想重新训练我的网络,并使用 VGG 模型微调我的模型。 我如何使用 ker
我正在使用 NSControlTextEditingDelegate 自动完成内容在 NSSearchField 中输入我生成的自定义建议。complete: 消息发送到字段编辑器当文本更改时。 现在
我为 mnist 数据集开发了一个 3 层深度自动编码器模型,因为我只是这个微调范例的初学者,所以我正在练习这个玩具数据集 下面是代码 from keras import layers from k
在我的代码中有一个我正在计算的参数。在多次测试中,该参数应该为0。由于该参数是通过多次加减计算的,因此不完全为0,而是小于10^-10。目前我正在使用: double tol = pow(10,-10
我的应用程序中有一个微调器,但在单击某个项目时它不起作用。我得到了值,但 if 条件不起作用。 spinner.setOnItemSelectedListener(new AdapterView.On
我需要帮助调整我的 mysql 服务器以获得更好的性能。我有很多资源,但它仍然表现不佳。我打得最多的一张表只有350万条记录。 我需要帮助关注更改哪些设置以获得更好的性能。 像这样的简单查询 SELE
在keras blog上有一个VGG16微调的例子,但我无法重现它。 更准确地说,这里是用于在没有顶层的情况下初始化 VGG16 并卡住除最顶层以外的所有 block 的代码: WEIGHTS_PAT
我正在尝试创建一个 Activity RateCardActivity,其中有一个微调器。 RateCardActivity 的布局文件是 rate_card。我的 RateCardActivity
微调器 xml: 我试过使用 android:background=... 自己购买,使用 dropDownSelector,使用和不使用 listSelector=...; 使用和不使用 list
我精心制作了下面列出组成员的命令: gwmi win32_group -filter 'Name="Administrators"'|%{$_.GetRelated('Win32_UserAccoun
已成功构建 HTML5 应用程序。以下库用于此: jquery.mobile-1.1.1.min.js jquery.mobile-1.1.1.min lawnchair.js 一切正常用 Phone
我在使用 Keras 微调 Inception 模型时遇到问题。 我已经成功地使用教程和文档生成了一个完全连接的顶层模型,该模型使用 Inception 中的瓶颈特征将我的数据集分类到正确的类别中,准
我对 PyTorch 和 Huggingface-transformers 比较陌生,并在此 Kaggle-Dataset 上试验过 DistillBertForSequenceClassificat
我是一名优秀的程序员,十分优秀!