gpt4 book ai didi

deep-learning - 在小型自定义语料库上预训练语言模型

转载 作者:行者123 更新时间:2023-12-03 23:07:33 24 4
gpt4 key购买 nike

我很好奇是否可以在文本生成中使用迁移学习,并在特定类型的文本上重新训练/预训练。

例如,拥有一个预训练的 BERT 模型和一个小的医学(或任何“类型”)文本语料库,创建一个能够生成医学文本的语言模型。假设您没有大量的“医学文本”,这就是您必须使用迁移学习的原因。

把它作为一个管道,我会把它描述为:

  • 使用预训练的 BERT 分词器。
  • 从我的新文本中获取新标记并将它们添加到现有的预训练语言模型(即 vanilla BERT)中。
  • 使用组合标记器在自定义语料库上重新训练预训练的 BERT 模型。
  • 生成与小型自定义语料库中的文本相似的文本。

  • 这听起来很熟悉吗?抱脸可以吗?

    最佳答案

    我没有听说过你刚才提到的管道。为了为您的用例构建 LM,您基本上有两种选择:

  • 在您自己的语料库上进一步训练 BERT (-base/-large) 模型。这个过程被称为域适应,在这个 recent paper 中也有描述。 .这将使 BERT 模型的学习参数适应您的特定领域(生物/医学文本)。尽管如此,对于此设置,您将需要相当大的语料库来帮助 BERT 模型更好地更新其参数。
  • 使用预先训练的语言模型,该模型在大量特定领域的文本上从头开始或在 vanilla BERT 模型上进行了微调。您可能知道,Google 发布的 vanilla BERT 模型已经在 Wikipedia 文本上进行了训练。在 vanilla BERT 之后,研究人员尝试在 Wikipedia 之外的其他领域训练 BERT 架构。您或许可以使用这些对特定领域语言有深入理解的预训练模型。对于您的情况,有一些型号,例如:BioBERT , BlueBERT , 和 SciBERT .

  • Is it possible with hugging-face?



    我不确定 Huggingface 开发人员是否已经开发出一种强大的方法来在自定义语料库上预训练 BERT 模型,因为他们声称他们的代码仍在进行中,但如果您有兴趣执行此步骤,我建议使用 Google research's bert用 Tensorflow 编写并且非常健壮的代码(由 BERT 的作者发布)。在他们的自述文件下 Pre-training with BERT部分,具体流程已经公布。

    关于deep-learning - 在小型自定义语料库上预训练语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61416197/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com