gpt4 book ai didi

python - 设置 word2vec - KeyError : "word ' word' not in vocabulary"

转载 作者:行者123 更新时间:2023-11-30 23:08:51 28 4
gpt4 key购买 nike

我尝试使用 word2vec,但在尝试对任何单词执行任何操作时都会出错。这似乎是一个编码问题,这是我所做的:

初始化word2vec:

import gensim, logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)

model = gensim.models.Word2Vec.load_word2vec_format('freebase-vectors-skipgram1000/knowledge-vectors-skipgram1000.bin', binary=True)
model.init_sims(replace=True)

测试一下:

print(model)  
# prints: Word2Vec(vocab=1422903, size=1000, alpha=0.025)

print(model.index2word[0])
# prints: u'/m/0dgps15'
# I would expect a readable word, how to fix that?

错误:

print(model.similarity('word', 'sound'))
# An error happen: KeyError: 'word'

我还尝试使用 binary=False 加载模型,但这在加载时出错。

最佳答案

您的 word2vec 使用没有任何问题。文件格式为二进制(可以使用 this nice utility 转换为文本)。

您已经下载了预先训练的“实体”矢量文件。我建议您使用 Google News 中的单词或短语向量(也可在 word2vec 网站上找到) .

[1] import gensim
[2] model = gensim.models.Word2Vec.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)
[3] print(model.similarity('word', 'sound'))
0.152615140536

关于python - 设置 word2vec - KeyError : "word ' word' not in vocabulary",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31507399/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com