gpt4 book ai didi

machine-learning - 如何获取新段落的段落向量?

转载 作者:行者123 更新时间:2023-11-30 09:09:40 26 4
gpt4 key购买 nike

我有一组用户及其内容(每个用户一个文档,包含该用户的推文)。我计划为每个用户使用某种大小为 N 的分布式向量表示。一种方法是在 Twitter 数据上采用预先训练的词向量并对它们进行平均以获得用户的分布式向量。我计划使用 doc2vec 以获得更好的结果。但我不太确定我是否理解 Distributed Representations of Sentences and Documents 中给出的 DM 模型.

我知道我们为每个段落分配一个向量,在预测下一个单词时我们使用它,然后反向传播错误以更新段落向量以及单词向量。如何用它来预测新段落的段落向量?

编辑:任何用于 gensim 计算新文档的段落向量的玩具代码将不胜感激。

最佳答案

以下代码基于gensim的doc2vec tutorial 。我们可以实例化并训练一个 doc2vec模型生成大小为 300 的嵌入,上下文窗口大小为 10,如下所示:

from gensim.models.doc2vec import Doc2Vec
model = Doc2Vec(size=300, window=10, min_count=2, iter=64, workers=16)
model.train(train_corpus, total_examples=model.corpus_count, epochs=model.iter)

训练完我们的模型后,我们可以计算一个新的未见文档的向量,如下所示:

doc_id = random.randint(0, len(test_corpus))
inferred_vector = model.infer_vector(test_corpus[doc_id])
sims = model.docvecs.most_simlar([inferred_vector], topn=len(model.docvecs))

这将返回测试文档的 300 维表示,并根据余弦相似度从训练集中计算前 N 个最相似的文档。

关于machine-learning - 如何获取新段落的段落向量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43045295/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com