- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有大约 200 万个句子,我想使用 Facebook AI 的 RoBERTa-large 将它们转换为向量,在 NLI 和 STSB 上进行微调以获得句子相似性(使用很棒的 sentence-transformers 包)。
我已经有一个包含两列的数据框:“话语”包含语料库中的每个句子,“报告”包含每个句子的文档标题。
从那里,我的代码如下:
from sentence_transformers import SentenceTransformer
from tqdm import tqdm
model = SentenceTransformer('roberta-large-nli-stsb-mean-tokens')
print("Embedding sentences")
data = pd.read_csv("data/sentences.csv")
sentences = data['utterance'].tolist()
sentence_embeddings = []
for sent in tqdm(sentences):
embedding = model.encode([sent])
sentence_embeddings.append(embedding[0])
data['vector'] = sentence_embeddings
最佳答案
通过将话语作为列表而不是循环遍历列表,我发现使用这个包可以实现可笑的加速。我认为正在进行一些很好的内部矢量化。
%timeit utterances_enc = model.encode(utterances[:10])
3.07 s ± 53.2 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit utterances_enc = [model.encode(utt) for utt in utterances[:10]]
4min 1s ± 8.08 s per loop (mean ± std. dev. of 7 runs, 1 loop each)
关于python - 使用 RoBERTa 加速嵌入 200 万个句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61588381/
我有一个 pytorch 闪电代码,当与 bert-base-uncased 或 roberta-base 一起使用时,它非常适合二进制分类任务,但不适用于 roberta-large,即训练损失不会
给定一个“Roberta 是 BERT 的高度优化版本”类型的句子,我需要使用 RoBERTa 获取这句话中每个单词的嵌入。我试图在网上查看示例代码,但没有找到明确的答案。 我的看法如下: token
from transformers import AutoModel, AutoTokenizer tokenizer1 = AutoTokenizer.from_pretrained("robert
我正在对西类牙推文进行情感分析。 在查阅了一些最近的文献后,我发现最近有一项专门针对西类牙语文本 (roberta-base-bne) 训练 RoBERTa 模型的努力。到目前为止,它似乎比当前最先进
我有大约 200 万个句子,我想使用 Facebook AI 的 RoBERTa-large 将它们转换为向量,在 NLI 和 STSB 上进行微调以获得句子相似性(使用很棒的 sentence-tr
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练,一个训练目标比 BE
我想使用领域语料库(与情感相关的文本)预训练 BERT 和 RoBERTa MLM。使用 50k~100k 单词需要多长时间。由于 RoBERTa 没有接受过预测下一句目标的训练,一个训练目标比 BE
我正在尝试向 BERT 和 RoBERTa 标记器添加一些新标记,以便我可以根据新词微调模型。这个想法是用新词在一组有限的句子上微调模型,然后看看它在其他不同的上下文中对这个词的预测是什么,以检查模型
我是一名优秀的程序员,十分优秀!