gpt4 book ai didi

nlp - 您可以使用特定于任务的架构从头开始训练 BERT 模型吗?

转载 作者:行者123 更新时间:2023-12-03 20:25:43 26 4
gpt4 key购买 nike

基础模型的 BERT 预训练是通过语言建模方法完成的,在这种方法中,我们屏蔽了句子中特定百分比的标记,并使模型学习那些缺失的掩码。然后,我认为为了完成下游任务,我们添加了一个新初始化的层,并对模型进行了微调。

然而,假设我们有一个巨大的句子分类数据集。理论上,我们是否可以从头开始初始化 BERT 基础架构,仅用这个句子分类数据集训练额外的下游任务特定层 + 基础模型权重形成scratch,并且仍然取得良好的结果?

谢谢。

最佳答案

BERT 可以被视为一种语言编码器,它在大量数据上进行训练以很好地学习语言。众所周知,最初的 BERT 模型是在整个英文维基百科和图书语料库上训练的,总和为 3,300M 字。 BERT-base 有 109M 的模型参数。所以,如果你认为你有足够大的数据来训练 BERT,那么你的问题的答案是肯定的。

但是,当您说“仍然取得了不错的结果”时,我假设您是在与原始 BERT 模型进行比较。在这种情况下,答案在于训练数据的大小。

我想知道为什么你更喜欢从头开始训练 BERT 而不是微调它?是因为害怕域名适配问题吗?如果没有,预训练的 BERT 可能是一个更好的起点。

请注意,如果您想从头开始训练 BERT,您可以考虑 较小 建筑学。您可能会发现以下文件很有用。

  • Well-Read Students Learn Better: On the Importance of Pre-training Compact Models
  • ALBERT: A Lite BERT for Self-supervised Learning of Language Representations
  • 关于nlp - 您可以使用特定于任务的架构从头开始训练 BERT 模型吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61826824/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com