gpt4 book ai didi

gensim - 如何加载从 StarSpace 生成的嵌入(在 tsv 文件中)

转载 作者:行者123 更新时间:2023-12-03 14:39:28 25 4
gpt4 key购买 nike

有谁知道如何将带有从 StarSpace 生成的嵌入的 tsv 文件加载到 Gensim 中? Gensim 文档似乎经常使用 Word2Vec,但我找不到相关的答案。

谢谢,

阿穆利亚

最佳答案

您可以使用来自经过训练的 StarSpace 模型的 tsv 文件,并将其转换为 Gensim 能够导入的 Word2Vec 格式的 txt 文件。

新 txt 文件的第一行应说明行数(确保首先删除文件末尾的所有空行)和 tsv 文件的向量大小(维度)。文件的其余部分看起来与原始 tsv 文件相同,但使用空格而不是制表符。

转换文件的 Python 代码如下所示:

with open('path/to/starspace-model.tsv', 'r') as inp, open('path/to/word2vec-format.txt', 'w') as outp:
line_count = '...' # line count of the tsv file (as string)
dimensions = '...' # vector size (as string)
outp.write(' '.join([line_count, dimensions]) + '\n')
for line in inp:
words = line.strip().split()
outp.write(' '.join(words) + '\n')

然后,您可以将新文件导入 Gensim,如下所示:
from gensim.models import KeyedVectors
word_vectors = KeyedVectors.load_word2vec_format('path/to/word2vec-format.txt', binary=False)

我使用 Gensim 的 word_vectors.similarity 函数来检查模型是否正确加载,它似乎对我有用。希望这可以帮助!

关于gensim - 如何加载从 StarSpace 生成的嵌入(在 tsv 文件中),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49088689/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com