gpt4 book ai didi

python - Gensim:如何从文本文件加载预计算的词向量

转载 作者:太空宇宙 更新时间:2023-11-03 15:46:16 25 4
gpt4 key购买 nike

我有一个包含以下格式(示例)的预计算词向量的文本文件:

word -0.0762464299711 0.0128308048976 ... 0.0712385589283\n’

在每一行的每个单词上(用 297 个额外的 float 代替 ...)。我正在尝试使用 Gensim 将它们作为 KeyedVectors 加载,因为我最终想计算余弦相似度,找到最相似的词等。不幸的是,我之前和从文档中都没有使用过 Gensim,我不太清楚该怎么做这。我尝试了以下发现 here :

word_vectors = KeyedVectors.load_word2vec_format('/embeddings/word.vectors', binary=False)

然而,这会产生以下错误:

ValueError:以 10 为底的 int() 无效文字:'the'

'the' 是文本文件中的第一个词,所以我怀疑加载函数期望存在一些不存在的东西。但是我找不到关于应该在那里的任何信息。我将非常感谢指向此类信息或任何其他解决我问题的方法。谢谢!

最佳答案

可以看到here Word2Vec 格式的示例。第一行应该包含文件中的单词数,然后是向量的维度。这可能就是您的脚本返回错误的原因。

在你的例子中:

1 300
word -0.0762464299711 0.0128308048976 ... 0.0712385589283

关于python - Gensim:如何从文本文件加载预计算的词向量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49750112/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com