gpt4 book ai didi

python - 如何将 Gensim doc2vec 与预训练的词向量一起使用?

转载 作者:IT老高 更新时间:2023-10-28 21:55:04 25 4
gpt4 key购买 nike

我最近在 Gensim 中发现了 doc2vec 附加功能。如何在 doc2vec 中使用预训练的词向量(例如在 word2vec 原始网站中找到的)?

还是 doc2vec 从它用于段落向量训练的相同句子中获取词向量?

谢谢。

最佳答案

请注意,“DBOW” (dm=0) 训练模式不需要甚至创建词向量作为训练的一部分。它只是学习擅长依次预测每个单词的文档向量(很像 word2vec skip-gram 训练模式)。

(在 gensim 0.12.0 之前,另一条评论中提到了参数 train_words,一些文档建议该参数将共同训练单词。但是,我不相信这实际上有效。开始在 gensim 0.12.0 中,有参数 dbow_words,它可以与 DBOW doc-vectors 同时进行skip-gram 训练单词。请注意,这使得训练需要更长的时间——与 相关的因素窗口。因此,如果您不需要词向量,您仍然可以将其关闭。)

在“DM”训练方法(dm=1)中,词向量在这个过程中与文档向量一起被固有地训练,并且很可能也影响文档的质量。向量。理论上可以从先前的数据中预初始化词向量。但我不知道有任何强有力的理论或实验理由来确信这会改善 doc-vectors。

我按照这些思路进行的一个零碎实验表明,doc-vector 训练开始得更快——在最初的几次通过后预测质量更好——但这种优势随着更多的通过而消失。无论您是保持单词向量不变还是让它们随着新的训练继续调整也可能是一个重要的考虑因素……但是哪个选择更好可能取决于您的目标、数据集以及预先存在的质量/相关性词向量。

(您可以使用 gensim 0.12.0 中提供的 intersect_word2vec_format() 方法重复我的实验,并尝试通过 syn0_lockf 值。但请记住,这是实验领域:基本的 doc2vec 结果不依赖于,甚至不一定会改进,重用的词向量。)

关于python - 如何将 Gensim doc2vec 与预训练的词向量一起使用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27470670/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com