gpt4 book ai didi

nlp - 使用经过训练的 BERT 模型和数据预处理

转载 作者:行者123 更新时间:2023-12-04 13:12:16 28 4
gpt4 key购买 nike

当使用来自 pytorch 的预训练 BERT 嵌入(然后进行微调)时,是否应该像在任何标准 NLP 任务中一样对输入模型的文本数据进行预处理?
例如,是否应该进行词干提取、去除低频词、去首字母化处理,还是应该将原始文本简单地传递给“transformers.BertTokenizer”?

最佳答案

我认为预处理不会改变你的输出预测。我将尝试为您提到的每个案例进行解释-

  • 词干提取或词形还原 :
    Bert 使用 BPE( 字节对编码 来缩小其词汇大小),所以像 run 和 running 这样的词最终会被解码为 运行 + ##ing。
    因此最好不要将运行转换为运行,因为在某些 NLP 问题中,您需要该信息。
  • 去资本化 - Bert 提供两种模型(小写和大写)。一个将您的句子转换为小写,其他则不会随着您句子的大小写而改变。因此,您无需在此处进行任何更改,只需为您的用例选择模型即可。
  • 去除高频词 ——
    Bert 使用 Transformer 模型,该模型适用于注意力原则。
    因此,当您针对任何问题对其进行微调时,它只会查看那些会影响输出的单词,而不查看所有数据中常见的单词。
  • 关于nlp - 使用经过训练的 BERT 模型和数据预处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63979544/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com