gpt4 book ai didi

nlp - 如何在未标记的数据上微调 BERT?

转载 作者:行者123 更新时间:2023-12-04 12:20:44 31 4
gpt4 key购买 nike

我想在特定域上微调 BERT。我在文本文件中有该域的文本。我如何使用这些来微调 BERT?
我在找 here目前。

我的主要目标是使用 BERT 获得句子嵌入。

最佳答案

这里要做出的重要区别是您是否想要 微调您的模型,或者您是否想将其公开给其他 预训练 .
前者只是一种训练 BERT 以适应特定监督任务的方法,为此您通常需要 1000 个或更多样本 包括标签 .
另一方面,预训练基本上是试图帮助 BERT 更好地“理解”来自某个领域的数据,通过基本上继续其无监督的训练目标([MASK] 特定单词并尝试预测应该在那里出现什么单词),为此您不需要标记数据。
但是,如果您的最终目标是句子嵌入,我强烈建议您查看 Sentence Transformers ,它基于 Huggingface 的转换器库的一个稍微过时的版本,但主要尝试生成高质量的嵌入。请注意,有一些方法可以使用替代损失进行训练,您可以尝试模拟与嵌入相关的某种形式的损失。
编辑: Sentence-Transformers 的作者最近加入了 Huggingface,所以我希望在接下来的几个月里支持会有很大的改善!

关于nlp - 如何在未标记的数据上微调 BERT?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61962710/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com