gpt4 book ai didi

nlp - Doc2vec 预测 - 我们是否对单词进行平均或者新段落的段落 ID 是什么?

转载 作者:行者123 更新时间:2023-12-03 02:19:25 25 4
gpt4 key购买 nike

据我了解,您在训练时将段落ID视为doc2vec中的新词(DM方法,图中左侧)。训练输出是上下文单词。训练模型后,假设我想在给定的新文档中获得 1 次嵌入。

我是否将每个单词输入网络,然后对其进行平均以获得嵌入?或者还有别的办法吗?

我可以将其提供给 gensim,但我试图了解它是如何工作的。

enter image description here

最佳答案

在模型批量训练期间,候选文档向量逐渐被插入以更好地预测文本的单词,就像单词向量训练一样。因此,在训练结束时,您将获得与文本一起提供的所有标识符的文档向量。

您可以从 gensim 访问这些内容Doc2Vec通过标识符的文档式索引查找模型(在 gensim') you provided during training: model.docvecs[tag]`中称为“doctag”)

训练后,为了获取新文本的文档向量,使用了推理过程。该模型保持卡住,并为文本形成一个新的随机候选向量(就像开始对训练文本进行批量训练的向量一样)。然后,以一种完全类似于训练的方式逐步插入它,以更好地预测单词——但只有这一个新的候选向量发生了变化。 (所有模型内部权重保持不变。)

您可以通过 infer_vector() 计算此类新向量方法,它采用应该像训练期间提供的文本一样进行预处理的单词标记列表:model.infer_vector(words) .

关于nlp - Doc2vec 预测 - 我们是否对单词进行平均或者新段落的段落 ID 是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53004827/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com