gpt4 book ai didi

machine-learning - BERT 的表现比 word2vec 差

转载 作者:行者123 更新时间:2023-12-03 17:14:00 30 4
gpt4 key购买 nike

我正在尝试使用 BERT 解决文档排名问题。我的任务很简单。我必须对输入文档进行相似度排名。这里唯一的问题是我没有标签——所以它更像是一个定性分析。

我正在尝试一系列文档表示技术——主要是 word2vec、para2vec 和 BERT。

对于 BERT,我遇到了 Hugging face - Pytorch图书馆。我微调了 bert-base-uncased 模型,大约有 150,000 个文档。我运行了 5 个 epoch,批量大小为 16,最大序列长度为 128。但是,如果我比较 Bert 表示与 word2vec 表示的性能,由于某种原因,word2vec 现在对我来说表现更好。对于 BERT,我使用最后四层来获取表示。

我不太确定为什么微调模型不起作用。我读了 this纸,和 this其他链接也表示 BERT 在针对分类任务进行微调时表现良好。但是,由于我没有标签,因此我按照论文中的方法对其进行了微调 - 以无监督的方式。

此外,我的文件长度差异很大。所以我现在正在向他们发送明智的句子。最后,无论如何我必须对词嵌入进行平均以获得句子嵌入。关于更好方法的任何想法?我也看了here - 有不同的方法可以对词嵌入进行池化以获得固定的嵌入。想知道是否有比较哪种池化技术效果更好?

对更好地训练 BERT 或更好的池化方法的任何帮助将不胜感激!

最佳答案

你可以看看这个 blog post :

BERT even has a special [CLS] token whose output embedding is used for classification tasks, but still turns out to be a poor embedding of the input sequence for other tasks. [Reimers & Gurevych, 2019]

Sentence-BERT, presented in [Reimers & Gurevych, 2019] and accompanied by a Python implementation, aims to adapt the BERT architecture by using siamese and triplet network structures to derive semantically meaningful sentence embeddings that can be compared using cosine-similarity

关于machine-learning - BERT 的表现比 word2vec 差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55786929/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com