encoding - 如何获得 RoBERTa 词嵌入？-6ren

encoding - 如何获得 RoBERTa 词嵌入？

转载作者：行者123 更新时间：2023-12-04 13:56:55

25

4

给定一个“Roberta 是 BERT 的高度优化版本”类型的句子，我需要使用 RoBERTa 获取这句话中每个单词的嵌入。我试图在网上查看示例代码，但没有找到明确的答案。

我的看法如下:

tokens = roberta.encode(headline)
all_layers = roberta.extract_features(tokens, return_all_hiddens=True)
embedding = all_layers[0]
n = embedding.size()[1] - 1
embedding = embedding[:,1:n,:]

哪里 embedding[:,1:n,:]用于仅提取句子中单词的嵌入，没有开始和结束标记。

这是正确的吗？

最佳答案

TOKENIZER_PATH = "../input/roberta-transformers-pytorch/roberta-base"
ROBERTA_PATH = "../input/roberta-transformers-pytorch/roberta-base"

text= "How are you? I am good."
tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH)

##how the words are broken into tokens
print(tokenizer.tokenize(text))

##the format of a encoding
print(tokenizer.batch_encode_plus([text]))

##op wants the input id
print(tokenizer.batch_encode_plus([text])['input_ids'])

##op wants the input id without first and last token
print(tokenizer.batch_encode_plus([text])['input_ids'][0][1:-1])

输出:
['How', 'Ġare', 'Ġyou', '?', 'ĠI', 'Ġam', 'Ġgood', '.']
{'input_ids': [[0, 6179, 32, 47, 116, 38, 524, 205, 4, 2]], 'attention_mask': [[1, 1, 1, 1, 1, 1, 1, 1 , 1, 1]]}
[[0, 6179, 32,47, 116, 38, 524, 205, 4, 2]]
[6179, 32, 47, 116, 38, 524, 205, 4]
不要担心“Ġ”字符。它只是表示单词前面有一个空格。

关于encoding - 如何获得 RoBERTa 词嵌入？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60824589/

25

4

0

文章推荐： oauth-2.0 - Keycloak，客户端之间共享资源

文章推荐： r - 将应用程序部署到 Shinyapps.io 服务器时出错

huggingface-transformers - roberta-large 模型的训练损失并没有减少，但对于 roberta-base、bert-base-uncased 来说训练损失非常好
我有一个 pytorch 闪电代码，当与 bert-base-uncased 或 roberta-base 一起使用时，它非常适合二进制分类任务，但不适用于 roberta-large，即训练损失不会
encoding - 如何获得 RoBERTa 词嵌入？
给定一个“Roberta 是 BERT 的高度优化版本”类型的句子，我需要使用 RoBERTa 获取这句话中每个单词的嵌入。我试图在网上查看示例代码，但没有找到明确的答案。我的看法如下: token
nlp - 难以理解 Roberta 模型中使用的分词器
from transformers import AutoModel, AutoTokenizer tokenizer1 = AutoTokenizer.from_pretrained("robert
python - 针对不同的任务、情感分析对预训练的西类牙 RoBERTa 模型进行微调
我正在对西类牙推文进行情感分析。在查阅了一些最近的文献后，我发现最近有一项专门针对西类牙语文本 (roberta-base-bne) 训练 RoBERTa 模型的努力。到目前为止，它似乎比当前最先进
python - 使用 RoBERTa 加速嵌入 200 万个句子
我有大约 200 万个句子，我想使用 Facebook AI 的 RoBERTa-large 将它们转换为向量，在 NLI 和 STSB 上进行微调以获得句子相似性(使用很棒的 sentence-tr
language-model - 使用域文本预训练 BERT/RoBERTa 语言模型，预计需要多长时间？哪个更快？
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练，一个训练目标比 BE
language-model - 使用域文本预训练 BERT/RoBERTa 语言模型，预计需要多长时间？哪个更快？
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练，一个训练目标比 BE
huggingface-transformers - 将新 token 添加到 BERT/RoBERTa，同时保留相邻 token 的 token 化
我正在尝试向 BERT 和 RoBERTa 标记器添加一些新标记，以便我可以根据新词微调模型。这个想法是用新词在一组有限的句子上微调模型，然后看看它在其他不同的上下文中对这个词的预测是什么，以检查模型

首页

博学

6Ren·AI

商城

encoding - 如何获得 RoBERTa 词嵌入？