- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
from transformers import AutoModel, AutoTokenizer
tokenizer1 = AutoTokenizer.from_pretrained("roberta-base")
tokenizer2 = AutoTokenizer.from_pretrained("bert-base-cased")
sequence = "A Titan RTX has 24GB of VRAM"
print(tokenizer1.tokenize(sequence))
print(tokenizer2.tokenize(sequence))
最佳答案
这个问题非常广泛,所以我试图给出一个专注于手头主要问题的答案。如果您觉得需要回答其他问题,请一次只针对一个问题打开另一个问题,请参阅 Stackoverflow 的 [帮助/on-topic] 规则。
本质上,正如您正确识别的那样,BPE 是现代深度网络中任何标记化的核心。我强烈建议您阅读 original BPE paper by Sennrich et al. ,其中他们还强调了 BPE 的更多历史。
在任何情况下,任何拥抱脸模型的分词器都是经过预训练的,这意味着它们通常是事先从算法的训练集中生成的。常见的实现如 SentencePiece也可以更好地理解它,但本质上该任务被定义为约束优化问题,您可以在其中指定最大数量 k
允许的词汇单词(约束),然后算法尝试在不超过 k
的情况下保持尽可能多的单词完整无缺。 .
如果没有足够的单词来覆盖整个词汇表,则会使用较小的单位来近似词汇表,这会导致您在示例中观察到的 split 。
RoBERTa 使用了一种称为“字节级 BPE”的变体,最好的解释可能在 this study by Wang et al. 中给出。 .主要的好处是,根据我的理解,它可以减少词汇量,同时保持拆分的质量。
你问题的第二部分更容易解释; BERT 突出显示两个后续标记的合并(使用 ##
),而 RoBERTa 的标记生成器使用特定的 unicode 字符(在本例中为 \u0120
,带点的 G)突出显示新标记的开始。我能找到的最好的理由是 this thread ,它认为它基本上避免了在训练中使用空格。
关于nlp - 难以理解 Roberta 模型中使用的分词器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61134275/
我有一个 pytorch 闪电代码,当与 bert-base-uncased 或 roberta-base 一起使用时,它非常适合二进制分类任务,但不适用于 roberta-large,即训练损失不会
给定一个“Roberta 是 BERT 的高度优化版本”类型的句子,我需要使用 RoBERTa 获取这句话中每个单词的嵌入。我试图在网上查看示例代码,但没有找到明确的答案。 我的看法如下: token
from transformers import AutoModel, AutoTokenizer tokenizer1 = AutoTokenizer.from_pretrained("robert
我正在对西类牙推文进行情感分析。 在查阅了一些最近的文献后,我发现最近有一项专门针对西类牙语文本 (roberta-base-bne) 训练 RoBERTa 模型的努力。到目前为止,它似乎比当前最先进
我有大约 200 万个句子,我想使用 Facebook AI 的 RoBERTa-large 将它们转换为向量,在 NLI 和 STSB 上进行微调以获得句子相似性(使用很棒的 sentence-tr
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练,一个训练目标比 BE
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练,一个训练目标比 BE
我正在尝试向 BERT 和 RoBERTa 标记器添加一些新标记,以便我可以根据新词微调模型。这个想法是用新词在一组有限的句子上微调模型,然后看看它在其他不同的上下文中对这个词的预测是什么,以检查模型
我是一名优秀的程序员,十分优秀!