gpt4 book ai didi

machine-learning - 当未分配时如何找到 "num_words"或 Keras 分词器的词汇量大小?

转载 作者:行者123 更新时间:2023-11-30 08:39:34 25 4
gpt4 key购买 nike

如果我没有通过 num_words初始化时的参数Tokenizer() ,在对训练数据集进行标记后,如何找到词汇量?

为什么这样,我不想限制分词器词汇量大小来了解我的 Keras 模型在没有它的情况下表现如何。但随后我需要将此词汇量大小作为模型第一层定义中的参数传递。

最佳答案

所有单词及其索引都将存储在字典中,您可以使用tokenizer.word_index访问它。因此,您可以根据该词典中的元素数量找到唯一单词的数量:

num_words = len(tokenizer.word_index) + 1

+ 1 是因为保留填充(即索引零)。

注意:当您没有设置 num_words 参数时(即您不知道或不想限制单词数),此解决方案(显然)适用,因为无论您是否设置 num_wordsword_index 都包含所有单词(而不仅仅是最常见的单词)。

关于machine-learning - 当未分配时如何找到 "num_words"或 Keras 分词器的词汇量大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53525994/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com