gpt4 book ai didi

bert-language-model - vocab 大小必须精确计算 bert_config.json 中的 vocab_size 吗?

转载 作者:行者123 更新时间:2023-12-05 03:40:52 24 4
gpt4 key购买 nike

我看到别人的BERT模型,其中vocab.txt的大小是22110,但是bert_config.json中vocab_size参数的值为21128。

我明白这两个数字一定是完全一样的。是吗?

最佳答案

如果真的是 BERT 使用 WordPiece 分词器,那么是的。配置中不同长度的词汇和 vocab_size 意味着要么存在永远无法使用的嵌入,要么存在没有任何嵌入的词汇项。

在这种情况下,您不会看到任何错误消息,因为模型和分词器是分开加载的。 BERT 的嵌入表有 8 个不“可达”的嵌入。

但是请注意,该模型可能会使用一些非常不标准的分词器,以这种方式保存词汇表,它会缩短 8 个项目(尽管这不太可能)。

关于bert-language-model - vocab 大小必须精确计算 bert_config.json 中的 vocab_size 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67979876/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com