gpt4 book ai didi

huggingface-transformers - 理解 BERT 词汇 [unusedxxx] token :

转载 作者:行者123 更新时间:2023-12-04 11:26:49 26 4
gpt4 key购买 nike

我正在尝试理解 BERT 词汇 here .它有 1000 个 [unusedxxx] token 。我不遵循这些 token 的用法。我了解其他特殊 token ,如 [SEP]、[CLS],但 [未使用] 用于什么?

谢谢!

最佳答案

快速搜索揭示了它的用途,特别是在 original BERT implementation 的讨论中。 ,还有这个 HuggingFace thread .

如果您想在微调或进一步的预训练过程中引入特定的单词,未使用的标记会很有帮助;它们允许您按照自己的意愿处理仅在您的上下文中相关的单词,并避免使用 BERT 的原始词汇表时发生的子词拆分。引用第一次讨论:

Just replace the "[unusedX]" tokens with your vocabulary. Since these were not used they are effectively randomly initialized.

关于huggingface-transformers - 理解 BERT 词汇 [unusedxxx] token :,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62452271/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com