gpt4 book ai didi

python - 您需要将 EOS 和 BOS 代币放入自动编码器转换器中吗?

转载 作者:行者123 更新时间:2023-12-05 05:45:36 24 4
gpt4 key购买 nike

我开始全神贯注于转换器架构,但有些事情我还无法掌握。

在无解码器的转换器中,例如 BERT,标记器总是在句子前后包含标记 CLS 和 SEP。我知道 CLS 既充当 BOS 又充当提供分类信息的单个隐藏输出,但我有点迷惑为什么它需要 SEP 来进行屏蔽语言建模部分。

我将详细解释一下我希望获得的实用程序。在我的例子中,我想训练一个变压器作为自动编码器,所以 target = input.不会有解码器,因为我的想法是将原始词汇表的维数减少到更少的嵌入维数,然后研究(还不确定如何,但会到达那里)减少的空间以提取有用的信息。

因此,一个例子是:

string_input = "The cat is black" 
tokens_input = [1,2,3,4]

string_target = "The cat is black"
tokens_output = [1,2,3,4]

现在在分词的时候,假设我们是在一个词一个词的基础上分词,加入BOS和EOS会有什么好处?

我认为这些只有在使用自注意力解码器时才有用,对吧?所以,因为在那种情况下,对于解码器,输出必须右移输入,向量将是:

input_string = "The cat is black EOS"
input_tokens = [1,2,3,4,5]

shifted_output_string = "BOS The cat is black"
shifted_output_tokens = [6,1,2,3,4]

output_string = "The cat is black EOS"
output_token = [1,2,3,4,5]

然而,BERT 并没有self-attention decoder,而是一个简单的前馈层。这就是为什么我不确定是否理解这些特殊标记的用途。

总的来说,问题是:

  • 您是否总是需要 BOS 和 EOS 代币,即使您没有转换器解码器?
  • 为什么没有转换器解码器的 BERT 需要用于屏蔽语言模型部分的 SEP token ?

最佳答案

首先,简单介绍一下 BERT -BERT 词嵌入允许根据使用该词的上下文对同一个词进行多个向量表示。从这个意义上说,BERT 嵌入是上下文相关的。 BERT 在计算其嵌入时明确采用句子中每个单词的索引位置。 BERT 的输入是一个句子而不是一个单词。这是因为 BERT 需要整个句子的上下文来确定句子中单词的向量。如果你只向 BERT 输入一个词向量,这将完全违背 BERT 的双向、上下文性质的目的。然后输出是整个输入句子的固定长度向量表示。 BERT 为词汇表外的单词提供支持,因为该模型在“子词” 级别(也称为“词 block ”)学习单词。

SEP 标记用于帮助 BERT 区分两个不同的单词序列。这在下一序列预测 (NSP) 中是必需的。 CLS 在 NSP 中也是必需的,以便让 BERT 知道 何时 第一个 序列开始。理想情况下,您会使用如下格式:

CLS [序列 1] SEP [序列 2] SEP

请注意,我们使用任何BOSEOS 代币。标准的 BERT 分词器不包括这些。如果我们运行以下代码,我们可以看到这一点:

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
print(tokenizer.eos_token)
print(tokenizer.bos_token)
print(tokenizer.sep_token)
print(tokenizer.cls_token)

输出:没有任何没有任何[九月][CLS]

对于屏蔽语言建模 (MLM),我们只关心 MASK 标记,因为模型的目标只是猜测屏蔽标记。

BERT 接受了 NSP 和 MLM 的训练,正是这两种训练方法的结合使 BERT 如此有效。

所以回答你的问题——你并不“总是需要”EOS 和/或 BOS。事实上,您根本“不需要”它们。但是,如果您正在为特定的下游任务微调 BERT,您打算在其中使用 BOS 和 EOS token (具体方式取决于您),那么是的,我想您会将它们作为特殊 token 包括在内。但请注意,BERT 的训练并未考虑这些因素,您可能会看到不可预测/不稳定的结果。

关于python - 您需要将 EOS 和 BOS 代币放入自动编码器转换器中吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71306070/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com