machine-learning - BERT HuggingFace 给出 NaN 损失-6ren

machine-learning - BERT HuggingFace 给出 NaN 损失

转载作者：行者123 更新时间：2023-12-01 23:57:39

31

4

我正在尝试针对文本分类任务微调 BERT，但我得到了 NaN 损失并且无法弄清楚原因。

首先，我定义了一个 BERT 分词器，然后对我的文本进行分词:

from transformers import DistilBertTokenizer, RobertaTokenizer
distil_bert = 'distilbert-base-uncased' 

tokenizer = DistilBertTokenizer.from_pretrained(distil_bert, do_lower_case=True, add_special_tokens=True,
                                                max_length=128, pad_to_max_length=True)

def tokenize(sentences, tokenizer):
    input_ids, input_masks, input_segments = [],[],[]
    for sentence in tqdm(sentences):
        inputs = tokenizer.encode_plus(sentence, add_special_tokens=True, max_length=25, pad_to_max_length=True, 
                                             return_attention_mask=True, return_token_type_ids=True)
        input_ids.append(inputs['input_ids'])
        input_masks.append(inputs['attention_mask'])
        input_segments.append(inputs['token_type_ids'])        

    return np.asarray(input_ids, dtype='int32'), np.asarray(input_masks, dtype='int32'), np.asarray(input_segments, dtype='int32')

train = pd.read_csv('train_dataset.csv')
d = train['text']
input_ids, input_masks, input_segments = tokenize(d, tokenizer)

接下来，我加载我的整数标签，它们是:0、1、2、3。

d_y = train['label']
0    0
1    1
2    0
3    2
4    0
5    0
6    0
7    0
8    3
9    1
Name: label, dtype: int64

然后我加载预训练的 Transformer 模型并在其上放置层。我在编译模型时使用了 SparseCategoricalCrossEntropy Loss:

from transformers import TFDistilBertForSequenceClassification, DistilBertConfig, AutoTokenizer, TFDistilBertModel

  distil_bert = 'distilbert-base-uncased'
  optimizer = tf.keras.optimizers.RMSprop(learning_rate=0.0000001)

  config = DistilBertConfig(num_labels=4, dropout=0.2, attention_dropout=0.2)
  config.output_hidden_states = False
  transformer_model = TFDistilBertModel.from_pretrained(distil_bert, config = config)

  input_ids_in = tf.keras.layers.Input(shape=(25,), name='input_token', dtype='int32')
  input_masks_in = tf.keras.layers.Input(shape=(25,), name='masked_token', dtype='int32') 

  embedding_layer = transformer_model(input_ids_in, attention_mask=input_masks_in)[0]
  X = tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(50, return_sequences=True, dropout=0.1, recurrent_dropout=0.1))(embedding_layer)
  X = tf.keras.layers.GlobalMaxPool1D()(X)
  X = tf.keras.layers.Dense(50, activation='relu')(X)
  X = tf.keras.layers.Dropout(0.2)(X)
  X = tf.keras.layers.Dense(4, activation='softmax')(X)
  model = tf.keras.Model(inputs=[input_ids_in, input_masks_in], outputs = X)

  for layer in model.layers[:3]:
    layer.trainable = False

  model.compile(optimizer='adam',
        loss='sparse_categorical_crossentropy',
        metrics=['sparse_categorical_accuracy'],
    )

最后，我使用之前标记化的 input_ids 和 input_masks 作为模型的输入来运行模型，并在第一个时期后获得 NAN 损失:

model.fit(x=[input_ids, input_masks], y = d_y, epochs=3)

    Epoch 1/3
20/20 [==============================] - 4s 182ms/step - loss: 0.9714 - sparse_categorical_accuracy: 0.6153
Epoch 2/3
20/20 [==============================] - 0s 19ms/step - loss: nan - sparse_categorical_accuracy: 0.5714
Epoch 3/3
20/20 [==============================] - 0s 20ms/step - loss: nan - sparse_categorical_accuracy: 0.5714
<tensorflow.python.keras.callbacks.History at 0x7fee0e220f60>

编辑:模型在第一个时期计算损失，但它开始返回 NaN在第二个时代。是什么导致了这个问题？？？

有人知道我做错了什么吗？欢迎所有建议!

最佳答案

问题出在这里:

X = tf.keras.layers.Dense(1, activation='softmax')(X)

在网络的末端，您只有一个神经元，对应于一个类。类别 0 的输出概率始终为 100%。如果您有类别 0、1、2、3，则最后需要有 4 个输出。

关于machine-learning - BERT HuggingFace 给出 NaN 损失，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62436178/

31

4

0

文章推荐： r - 如何为 llply 的并行模式设置 preschedule=FALSE？

文章推荐： JSP中的JAVA字符串错误

文章推荐： google-compute-engine - 如何获取运行脚本的 GCE 实例名称？

文章推荐： java - 马蒂斯也形成 "spread out"。如何缩小全局间距？

bert-language-model - 来自转换器的 BERT 句子嵌入
我正在尝试从 BERT 模型中的隐藏状态中获取句子向量。看着拥抱脸 BertModel 说明 here ，其中说: from transformers import BertTokenizer, Be
bert-language-model - Huggingface BERT Tokenizer 添加新 token
我正在将 Huggingface BERT 用于 NLP 任务。我的文本包含被分成子词的公司名称。 tokenizer = BertTokenizerFast.from_pretrained('ber
bert-language-model - Transformer/BERT token 预测词汇表(从可能的 token 集中过滤出特殊 token )
对于 Transformer 模型，尤其是 BERT，以编程方式禁止模型以特殊标记作为预测结果是否有意义(并且在统计上是否正确)？在最初的实现中情况如何？在收敛过程中，模型必须学会不预测这些，但这种干
nlp - 将多个句子传递给 BERT？
我有一个包含段落的数据集，我需要将其分为两类。这些段落通常有 3-5 句话长。其中绝大多数的长度不到 500 字。我想利用BERT来解决这个问题。我想知道我应该如何使用 BERT 来生成这些段落的向
nlp - 如何在未标记的数据上微调 BERT？
我想在特定域上微调 BERT。我在文本文件中有该域的文本。我如何使用这些来微调 BERT？我在找 here目前。我的主要目标是使用 BERT 获得句子嵌入。最佳答案这里要做出的重要区别是您是否
nlp - BERT 的无监督微调仅用于嵌入？
我想针对未标记数据的特定域微调 BERT，并让输出层检查它们之间的相似性。我该怎么做？我是否需要先微调分类器任务(或问题答案等)并获得嵌入？或者我可以只使用预先训练好的 Bert 模型而无需执行任务并
python - BERT 微调后得到句子级别的嵌入
我遇到了这个page 1)我想在微调完成后获得句子级嵌入(由[CLS] token 给出的嵌入)。我怎么能做到？ 2)我还注意到该页面上的代码需要花费大量时间才能返回测试数据的结果。这是为什么？当我训
nlp - BERT 中长文本的滑动窗口用于问答
我读过解释滑动窗口如何工作的帖子，但我找不到任何关于它是如何实际实现的信息。据我了解，如果输入太长，可以使用滑动窗口来处理文本。如果我错了，请纠正我。假设我有一个文本 “2017 年 6 月 K
nlp - BERT 微调的优化器和调度器
我正在尝试使用 BERT 微调模型(使用 transformers 库)，但我对优化器和调度器有点不确定。首先，我明白我应该使用 transformers.AdamW而不是 Pytorch 的版本。
tensorflow - BERT - 池化输出与序列输出的第一个向量不同
我在 Tensorflow 中使用 BERT，有一个细节我不太明白。根据文档( https://tfhub.dev/google/bert_uncased_L-12_H-768_A-12/1 )，合并
python - BERT 中变压器编码器和解码器的输入是什么？
我正在阅读 BERT paper并且不清楚 transformer 的输入编码器和解码器。对于学习掩码语言模型(Cloze 任务)，论文称 15% 的标记是被掩码的，并且训练网络来预测被掩码的标记。
tensorflow - 在自定义数据上微调 BERT
我想使用 Bert 训练一个21 类文本分类模型。但是我的训练数据很少，所以下载了一个类似的数据集，其中包含 5 类和 200 万个样本。t并使用 bert 提供的 uncased 预训练模型对下
tensorflow - BERT + 自定义层训练性能随着时代的推移而下降
我正在训练一个在 BERT 之上使用自定义层的分类模型。在此期间，该模型的训练性能随着纪元的增加而下降(在第一个纪元之后)..我不确定这里要修复什么 - 是模型还是数据？ (对于数据来说，它是二进制标
python - BERT 分词器和模型下载
我是初学者..我正在和伯特一起工作。但出于公司网络的安全考虑，以下代码并没有直接接收bert模型。 tokenizer = BertTokenizer.from_pretrained('bert-ba
pytorch - 卡住预训练 bert 模型中的层
如何卡住上述预训练模型中的最后两层(dropout 和分类器层)？这样当模型运行时，我将得到一个致密层作为输出。最佳答案我想指出 BertForSequenceClassification 的定义
python - 加载预训练的 BERT 模型问题
我正在使用 Huggingface 进一步训练 BERT 模型。我使用两种方法保存模型:步骤 (1) 使用此代码保存整个模型:model.save_pretrained(save_location)，
python - HuggingFace Bert 情感分析
我收到以下错误: AssertionError:文本输入必须为 str(单个示例)、List[str](批处理或单个预标记示例)或 List[List[str]](预标记示例批处理)类型。,当我运行
bert-language-model - 如何向标记器添加新的特殊标记？
我想构建一个多类分类模型，我将对话数据作为 BERT 模型的输入(使用 bert-base-uncased)。 QUERY: I want to ask a question. ANSWER: Sur
python - 如何从 BERT 模型中获取词嵌入的余弦相似度
我很感兴趣如何从 BERT 模型中获得不同句子中词嵌入的相似性(实际上，这意味着词在不同场景中具有不同的含义)。例如: sent1 = 'I like living in New York.' se
python - 使用 BERT 通过词嵌入生成相似词或同义词
众所周知，BERT 模型的词嵌入能力可能优于 word2vec 和任何其他模型。我想在 BERT 词嵌入上创建一个模型来生成同义词或相似词。就像我们在 Gensim Word2Vec 中所做的一样。

首页

博学

6Ren·AI

商城

machine-learning - BERT HuggingFace 给出 NaN 损失