gpt4 book ai didi

gensim - 如何保存为gensim word2vec文件?

转载 作者:行者123 更新时间:2023-12-04 01:38:55 24 4
gpt4 key购买 nike

我有两个列表,A是单词列表,例如["hello","world",......],Len(A)为10000。列表B包含所有预训练的向量对应A,是一个[10000,512],512是向量维度。我想将两个列表转换成 gensim word2vec 模型格式,以便稍后加载模型,例如 model = Word2Vec.load("word2vec.model") 我应该怎么做?

最佳答案

由于您只有单词及其向量,因此您没有足够的信息来构建完整的 Word2Vec 模型(其中包括其他内容,例如内部神经网络的隐藏权重和单词频率) .

但是您可以创建一个 gensim KeyedVectors 对象,属于 gensim Word2Vec 模型中的一般类型.wv 属性。它有许多您可能有兴趣使用的辅助方法(如 most_similar())。

假设您的 A 单词列表位于名为 words_list 的更有用的命名 Python 列表中,而您的 B 列表- of-vectors 位于名为“vectors_list”的更有用的 Python 列表中。

尝试:

from gensim.models import KeyedVectors
kv = new KeyedVectors(512)
kv.add(words_list, vectors_list)
kv.save(`mywordvecs.kvmodel`)

您稍后可以通过以下方式重新加载它们:

kv2 = KeyedVectors.load(`mywordvecs.kvmodel`)

(您也可以使用 save_word2vec_format()load_word2vec_format() 而不是 gensim 的原生 save()/load() ,如果您想要更简单的纯矢量格式,也可以由使用该格式的其他工具加载。但是如果您留在 gensim 中,则纯 save() /load() 一样好——如果保存更复杂的经过训练的 Word2Vec 模型会更好,因为它们会保留这些对象的额外信息包含。)

关于gensim - 如何保存为gensim word2vec文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58393090/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com