gpt4 book ai didi

tensorflow - 在测试期间重新加载 Keras Tokenizer

转载 作者:行者123 更新时间:2023-12-01 03:21:31 25 4
gpt4 key购买 nike

我在这里按照教程进行操作:( https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html )

但是,我修改了代码,以便能够通过 h5py 保存生成的模型。 .因此,运行训练脚本后,我生成了 model.h5在我的目录中。

现在,当我想加载它时,我的问题是我对如何重新启动 Tokenizer 感到困惑。 .本教程有以下代码行:

tokenizer = Tokenizer(nb_words=MAX_NB_WORDS)
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

但假设,如果我重新加载 model.h5在不同的模块中,我需要创建另一个 Tokenizer标记测试集。但是,新的 Tokenizer将适合测试数据,从而创建一个完全不同的单词表。

因此,我的问题是:如何重新加载 Tokenizer是在训练数据集上训练的?我是否在某种程度上误解了 Embedding 的功能? Keras 中的层?现在,我假设由于我们基于预先训练的词嵌入将某些词索引映射到它们相应的嵌入向量,因此词索引需要保持一致。但是,如果我们执行另一个 fit_on_texts,这是不可能的。在测试数据集上。

谢谢你,期待你的回答!

最佳答案

Check out this question
评论者建议使用泡菜来保存对象和状态,尽管问题仍然是为什么这种功能没有内置到 keras 中。

关于tensorflow - 在测试期间重新加载 Keras Tokenizer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44760961/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com