gpt4 book ai didi

neural-network - 如何从 gensim word2vec 模型推断新词向量?

转载 作者:行者123 更新时间:2023-12-04 21:32:02 24 4
gpt4 key购买 nike

我想使用新的文本数据集将新词添加到经过训练的 gensim word2vec 模型中。但是,我想保留旧词嵌入,只需将数据集中的新词添加到现有模型中。这意味着不能使用新文本数据集简单地重新训练旧模型,因为它会重新调整同样在新文本数据集中的先前词嵌入的向量。你能就这个任务提出任何建议吗?我想要类似 Gensim 的 doc2vec 推断功能,您可以在其中为模型提供一些文本输入,并提供一个向量作为输出。谢谢。

最佳答案

我会做以下(伪Python):

for word in new_words:
# find words that should be nearby
synonyms = thesaurus.lookup(word)

# initialize an empty word vector
new_word_embedding = np.zeros(number_of_dimensions_a_word_vector_is)

# average the embeddings of synonyms
for syn in synonyms:
if w2v.get_embedding(syn):
a = np.array(new_word_embedding, w2v.get_embedding(syn))
new_word_embedding = np.mean(a, axis=0)

关于neural-network - 如何从 gensim word2vec 模型推断新词向量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49210010/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com