- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
给定一个“Roberta 是 BERT 的高度优化版本”类型的句子,我需要使用 RoBERTa 获取这句话中每个单词的嵌入。我试图在网上查看示例代码,但没有找到明确的答案。
我的看法如下:
tokens = roberta.encode(headline)
all_layers = roberta.extract_features(tokens, return_all_hiddens=True)
embedding = all_layers[0]
n = embedding.size()[1] - 1
embedding = embedding[:,1:n,:]
embedding[:,1:n,:]
用于仅提取句子中单词的嵌入,没有开始和结束标记。
最佳答案
TOKENIZER_PATH = "../input/roberta-transformers-pytorch/roberta-base"
ROBERTA_PATH = "../input/roberta-transformers-pytorch/roberta-base"
text= "How are you? I am good."
tokenizer = AutoTokenizer.from_pretrained(TOKENIZER_PATH)
##how the words are broken into tokens
print(tokenizer.tokenize(text))
##the format of a encoding
print(tokenizer.batch_encode_plus([text]))
##op wants the input id
print(tokenizer.batch_encode_plus([text])['input_ids'])
##op wants the input id without first and last token
print(tokenizer.batch_encode_plus([text])['input_ids'][0][1:-1])
输出:
关于encoding - 如何获得 RoBERTa 词嵌入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60824589/
我有一个 pytorch 闪电代码,当与 bert-base-uncased 或 roberta-base 一起使用时,它非常适合二进制分类任务,但不适用于 roberta-large,即训练损失不会
给定一个“Roberta 是 BERT 的高度优化版本”类型的句子,我需要使用 RoBERTa 获取这句话中每个单词的嵌入。我试图在网上查看示例代码,但没有找到明确的答案。 我的看法如下: token
from transformers import AutoModel, AutoTokenizer tokenizer1 = AutoTokenizer.from_pretrained("robert
我正在对西类牙推文进行情感分析。 在查阅了一些最近的文献后,我发现最近有一项专门针对西类牙语文本 (roberta-base-bne) 训练 RoBERTa 模型的努力。到目前为止,它似乎比当前最先进
我有大约 200 万个句子,我想使用 Facebook AI 的 RoBERTa-large 将它们转换为向量,在 NLI 和 STSB 上进行微调以获得句子相似性(使用很棒的 sentence-tr
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练,一个训练目标比 BE
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练,一个训练目标比 BE
我正在尝试向 BERT 和 RoBERTa 标记器添加一些新标记,以便我可以根据新词微调模型。这个想法是用新词在一组有限的句子上微调模型,然后看看它在其他不同的上下文中对这个词的预测是什么,以检查模型
我是一名优秀的程序员,十分优秀!