gpt4 book ai didi

machine-learning - Genisim doc2vec : how is short doc processed?

转载 作者:行者123 更新时间:2023-11-30 08:53:17 25 4
gpt4 key购买 nike

在 doc2vec 训练过程的每个微小步骤中,它都会在一定长度(称为窗口大小)内选取一个单词及其邻居。对邻居进行求和、平均或连接,等等。

我的问题是,如果窗口超出某个文档的边界怎么办,比如 this

那么邻居是如何求和、平均或连接的呢?或者它们只是被简单地丢弃了?

我正在做一些 nlp 工作,并且我的数据集中的大多数文档都很短。感谢任何想法。

最佳答案

纯 PV-DBOW 模式 (dm=0) 训练速度快且通常表现良好(尤其是在短文档上),它不使用滑动窗口根本不。每个文档向量都经过训练,能够直接预测文档的单词 - 相邻单词没有任何区别。

仅当您切换到 PV-DM 模式 (dm=1) 或添加交错式 Skip-gram 词向量训练 (dm=0, dbow_words=1 >) 与 window 相关。然后,窗口的处理方式与 Word2Vec 训练中的相同:如果它超出文本的任一端,它会被截断以不超出末尾,可能会使有效窗口不平衡。

因此,如果您有文本“A B C D E”,窗口为 2,则在预测第一个单词“A”时,只有右侧的“B”和“C”起作用(因为左边有零个字)。当预测第二个单词“B”时,左侧的“A”以及右侧的“C”和“D”会做出贡献。等等。

一个额外的问题是,为了以计算高效的方式对附近单词进行更强的加权,用于任何一个目标预测的实际窗口实际上是从 1 到配置的窗口的随机大小值。因此,对于 window=2,有一半的时间实际上只在每一侧使用 1 的窗口,而另一半的时间则使用 2 的完整窗口。(对于 window=5,它使用有效值 1 表示 20% 的预测,2 表示 20% 的预测,3 表示 20% 的预测,4 表示 20% 的预测,5 表示 20% 的预测。)这有效地赋予了较近的单词更大的影响力,而无需每次都包含所有全窗口单词或任何额外的部分加权计算的全部计算成本。

关于machine-learning - Genisim doc2vec : how is short doc processed?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53368915/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com