gpt4 book ai didi

python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec?

转载 作者:太空宇宙 更新时间:2023-11-03 16:40:42 25 4
gpt4 key购买 nike

我正在准备一个已经训练好的 word2vec 模型。我已将其序列化为 CSV 文件:

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461

我想知道的是如何在 gensim 中加载该词向量模型并使用它来训练段落或 doc2vec 模型。

这个 Doc2Vec tutorial 说我可以以“# C 文本格式”的形式加载模型,但我不知道这实际上意味着什么。首先但更重要的是“C 文本格式”是什么:

  • 如何加载我的 word2vec 模型并将其用于 doc2vec 训练?

如何从我的 word2vec 模型构建词汇表?

最佳答案

Doc2Vec 不需要词向量作为输入:它将创建自己训练期间所需的任何词向量。 (有些模式,例如纯 DBOW – dm=0, dbow_words=0 – 根本不使用或训练词向量。)

用词向量播种 Doc2Vec 模型可能会有所帮助,也可能会有害;没有太多理论或已发表的结果可以提供指导。 Word2Vec 有一个实验方法,intersect_word2vec_format(),可以将 word2vec-c-format 向量合并到具有现有词汇的模型中,但您需要查看源代码才能真正理解其假设:

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

关于python - 如何在 gensim 中加载预训练模型并用它训练 doc2vec?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36815038/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com