gpt4 book ai didi

python - target_vocab_size 在 tfds.features.text.SubwordTextEncoder.build_from_corpus 方法中究竟是什么意思?

转载 作者:行者123 更新时间:2023-12-03 20:15:29 26 4
gpt4 key购买 nike

根据 this link , target_vocab_size: int,要创建的词汇表的大致大小。 该声明对我来说非常模棱两可。据我所知,编码器会将每个词汇表映射到一个唯一的 ID。如果语料库有 vocab_size 会发生什么大于 target_vocab_size ?

最佳答案

documentation说:

Encoding is fully invertible because all out-of-vocab wordpieces are byte-encoded



这意味着未知的单词片段将一次编码一个字符。最好通过一个例子来理解。假设您构建了一个 SubwordTextEncoder使用非常大的英语文本语料库,以便大多数常用词都在词汇表中。
vocab_size = 10000
tokenizer = tfds.features.text.SubwordTextEncoder.build_from_corpus(
corpus_sentences, vocab_size)

假设您尝试标记以下句子。
tokenizer.encode("good badwords badxyz")

它将被标记为:
  • x
  • y
  • z

  • 如您所见,由于单词“xyz”不在词汇表中,因此被标记为字符。

    关于python - target_vocab_size 在 tfds.features.text.SubwordTextEncoder.build_from_corpus 方法中究竟是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56308612/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com